데이터 전처리 고민흔적 data preprocessing marks

최대 1 분 소요

train과 dev의 평균과 중간값의 차이

train의 label 데이터의 평균과 중간값이 모두 dev보다 낮다
- label 0이 많은 train
- 골고루 분포되어있는 dev

train 데이터 label의 분포

dev 데이터 label의 분포

train과 dev 데이터셋의 분포를 맞춰주기 위해 data augmentation이 필요할 것 같다는 생각(data swap)

0을 제외한 나머지에 data augmentation을 하고 난 후의 label 분포

label 5 데이터의 특징 띄어쓰기, 동의어 사용 -> label 0 데이터 500개를 가져와서 4.8, 5.0의 데이터로 증강하면 어떨까

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

모델 경량화 기법: Pruning(가지치기)

2024-12-23

2 분 소요

1. 프루닝 개념

모델 경량화 기법: Pruning(가지치기) - 실전편

2024-12-23

1 분 소요

1. 프루닝 구현 방법

충분히 실천 가능한 느리게 늙는 방법 (노년내과 정희원 교수)

2024-12-18

4 분 소요

아마존 AWS와 구글 GCP 서비스 비교

2024-12-16

1 분 소요

아마존 AWS 서비스