최대 1 분 소요

train과 dev의 평균과 중간값의 차이 Image

  • train의 label 데이터의 평균과 중간값이 모두 dev보다 낮다
    • label 0이 많은 train
    • 골고루 분포되어있는 dev

train 데이터 label의 분포 Image

dev 데이터 label의 분포 Image

train과 dev 데이터셋의 분포를 맞춰주기 위해 data augmentation이 필요할 것 같다는 생각(data swap)

0을 제외한 나머지에 data augmentation을 하고 난 후의 label 분포 Image

label 5 데이터의 특징 띄어쓰기, 동의어 사용 -> label 0 데이터 500개를 가져와서 4.8, 5.0의 데이터로 증강하면 어떨까

업데이트:

댓글남기기