1 분 소요

Data-centric AI란 무엇인가?

  Model-Centric view Data-Centric view
데이터 수집 시 우선사항 최대한 많은 Data 수집 Data의 일관성
성능 향상 방법 새로운 Model Architecture 제안
Model의 구조 수정
Data의 질을 향상시킴
  Data를 고정하고, Model을 개선함 Model을 고정하고, Data를 개선함
  • 성능 향상을 위해 Data 관점에서 고민
  • Hold the Code, Algorithms fixed

Data-Flywheel

Data-Centric AI의 실무 적용: Data-Flywheel의 역할

Data-centric AI는 AI 개발 과정에서 데이터를 중심으로 접근하는 방법론이다. 모델의 성능을 최대화하기 위해서는 데이터를 얼마나 잘 준비하고 관리하는지가 핵심이 된다. 실무에서 이 접근법을 효과적으로 활용하기 위해 데이터의 수집, 생성, 분석이 지속적으로 순환되는 Data-Flywheel 구조를 활용할 수 있다.

1. Data Collection (데이터 수집)

데이터 수집은 Data-centric 접근의 첫 단계로, 품질 높은 데이터를 지속적으로 확보하는 것이 중요하다. 여기서는 도메인 지식과 실무 경험을 활용해 실제 문제 해결에 필요한 데이터를 수집하고, 수집한 데이터가 AI 모델의 학습에 적합한지 검토한다.

2. Data Annotation (데이터 주석)

데이터 주석 과정은 수집된 데이터를 AI 모델이 이해할 수 있는 형태로 변환하는 작업이다. 주석의 품질은 모델 성능에 직접적인 영향을 미치기 때문에, 명확하고 일관된 기준으로 데이터 주석을 수행한다. Data-centric 접근에서는 주석의 일관성을 높이기 위해 자동화 도구와 인간의 피드백을 결합해 반복적으로 개선한다.

3. Data Generation (데이터 생성)

데이터가 충분하지 않거나 특정 상황에서 모델의 성능이 떨어질 때, 새로운 데이터를 생성해 문제를 해결한다. 예를 들어, 데이터 증강(Augmentation) 기법을 사용해 기존 데이터를 변형하여 다양한 상황을 학습할 수 있도록 돕는다. 이를 통해 모델의 일반화 성능을 높인다.

4. Model Development 및 Training (모델 개발 및 학습)

데이터를 충분히 확보하고 처리한 후, 모델 개발 단계로 넘어간다. Data-centric 접근에서는 데이터의 품질과 일관성에 집중하기 때문에, 모델 구조를 자주 변경하기보다는 기존 모델을 사용하여 데이터의 영향을 분석한다. 모델 학습은 반복적으로 이루어지며, 매 학습 후 모델의 성능을 평가하여 데이터를 수정할지, 새로운 데이터를 추가할지를 결정한다.

5. Model Evaluation 및 Result Analysis (모델 평가 및 결과 분석)

모델이 학습을 마치면 평가를 통해 성능을 측정한다. 모델 평가에서 중요한 점은 데이터의 품질이다. 평가 데이터가 실제 환경을 얼마나 잘 반영하는지, 데이터의 불균형이나 노이즈가 있는지 등을 분석한다. 결과 분석은 단순히 성능 지표를 확인하는 것을 넘어서, 데이터의 개선점을 찾고 다음 단계에서 보완할 수 있도록 한다.

Data-Flywheel의 순환 구조

Data-Flywheel의 가장 중요한 특징은 반복성이다. 모델이 배포된 이후에도 지속적으로 데이터를 수집하고 분석하여 새로운 데이터를 추가하거나 데이터를 주석하는 과정을 반복한다. 이렇게 데이터를 중심으로 AI 시스템을 개선함으로써, 모델의 성능을 장기적으로 향상시킬 수 있다.

댓글남기기