majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다.
따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다.
1. under-sampling
majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법
2. over-sampling
minority 샘플을 반복 샘플링하는 방법
3. Synthetic generation
위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다.
minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다.
feature space에서, 가지고 있는 minority data와 유사한 데이터를 새로운 데이터로 가져오는 것입니다.
(구체적인 방법론 및 수식은 추가하기)
python에는 imbalanced-learn이라는 라이브러리를 통해 SMOTE를 사용할 수 있습니다.
'연구 Research > 데이터과학 Data Science' 카테고리의 다른 글
[데이터과학] scipy interpolation 종류 정리 (0) | 2023.08.25 |
---|---|
[matplotlib] x,y축 format 지정하는 방법 (0) | 2023.06.08 |
[Matplotlib] 3D scatter plot 그리는 코드 (0) | 2023.04.28 |
[데이터과학] Pandas에서 dataframe 생성 및 export (0) | 2023.04.27 |
[데이터과학] 결측치 Missing Data 처리 (0) | 2021.05.25 |