Machine Learning Operations
머신러닝 모델을 개발·배포·운영하는 전 과정을 효율적으로 관리하는 방법론
- 자동화 (데이터 수집 → 전처리 → 학습 → 검증 → 배포까지 이어지는 과정을 자동으로 연결) - AirFlow
- 재현성과 추적성 (어떤 데이터 + 어떤 파라미터로 학습했는지 기록) - MLflow
- 지속적인 통합/배포 (모델이 업데이트될 때 자동으로 테스트·검증 후 배포) - Github Action
- 운영 (서빙 및 데이터 드리프트 모니터링) - FastAPI + Evidently AI
1. 자동화 - AirFlow

Home
Platform created by the community to programmatically author, schedule and monitor workflows.
기본 개념
워크플로우 오퍼레이션
데이터 파이프라인을 자동으로 실행, 관리, 모니터링 해주는 시스템
DAG (Directed Acyclic Graph)
- 파이프라인
- 단일 작업 단위는 Task라고 한다 (파이썬 코드, 쉘스크립크 등)
- Task를 정의하는 템플릿을 Operator라고 한다
- DAG 안의 의존성과 스케쥴 관리를 Scheduler라고 한다.
- Task가 로컬, 분산 환경, 쿠버네티스등 어떻게 실행될지 정하는 것을 Executor라고 한다.
설치 및 실행
DAG 작성
스케쥴링과 실행관리
심화 기능
모니터링과 운영
2. 재현성과 추적성 - MLflow
MLflow
3. 지속적인 통합/배포 - Github Action

GitHub Actions 설명서 - GitHub Docs
GitHub Actions를 사용하여 리포지토리에서 바로 소프트웨어 개발 워크플로를 자동화, 사용자 지정 및 실행합니다. CI/CD를 포함하여 원하는 작업을 수행하기 위한 작업을 검색, 생성 및 공유하고 완전히 사용자 정의된 워크플로에서 작업을 결합할 수 있습니다.
4. 운영 - Fast API, Evidently AI

FastAPI
FastAPI framework, high performance, easy to learn, fast to code, ready for production
Evidently AI - AI Evaluation & LLM Observability Platform
Evidently AI - AI Evaluation & LLM Observability Platform
Ensure your AI is production-ready. Test LLMs and monitor performance across AI applications, RAG systems, and multi-agent workflows. Built on open-source.
