MLOps

MLOps

생성일
Sep 9, 2025 12:35 PM

Machine Learning Operations

머신러닝 모델을 개발·배포·운영하는 전 과정을 효율적으로 관리하는 방법론
 
  1. 자동화 (데이터 수집 → 전처리 → 학습 → 검증 → 배포까지 이어지는 과정을 자동으로 연결) - AirFlow
  1. 재현성과 추적성 (어떤 데이터 + 어떤 파라미터로 학습했는지 기록) - MLflow
  1. 지속적인 통합/배포 (모델이 업데이트될 때 자동으로 테스트·검증 후 배포) - Github Action
  1. 운영 (서빙 및 데이터 드리프트 모니터링) - FastAPI + Evidently AI
 

1. 자동화 - AirFlow

Apache AirflowApache AirflowHome

기본 개념

워크플로우 오퍼레이션
데이터 파이프라인을 자동으로 실행, 관리, 모니터링 해주는 시스템
DAG (Directed Acyclic Graph)
  • 파이프라인
  • 단일 작업 단위는 Task라고 한다 (파이썬 코드, 쉘스크립크 등)
  • Task를 정의하는 템플릿을 Operator라고 한다
  • DAG 안의 의존성과 스케쥴 관리를 Scheduler라고 한다.
  • Task가 로컬, 분산 환경, 쿠버네티스등 어떻게 실행될지 정하는 것을 Executor라고 한다.

설치 및 실행

DAG 작성

스케쥴링과 실행관리

심화 기능

모니터링과 운영


2. 재현성과 추적성 - MLflow

MLflow

3. 지속적인 통합/배포 - Github Action

GitHub DocsGitHub DocsGitHub Actions 설명서 - GitHub Docs

4. 운영 - Fast API, Evidently AI

FastAPI
Evidently AI - AI Evaluation & LLM Observability Platform