[데이터과학] Unbalancing data 처리
·
연구 Research/데이터과학 Data Science
majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다. 따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다. 1. under-sampling majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법 2. over-sampling minority 샘플을 반복 샘플링하는 방법 3. Synthetic generation 위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다. minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다. feature space에..