[데이터과학] Unbalancing data 처리

majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다.

따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다.

majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법

minority 샘플을 반복 샘플링하는 방법

위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다.

minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다.

feature space에서, 가지고 있는 minority data와 유사한 데이터를 새로운 데이터로 가져오는 것입니다.

(구체적인 방법론 및 수식은 추가하기)

python에는 imbalanced-learn이라는 라이브러리를 통해 SMOTE를 사용할 수 있습니다.

[데이터과학] scipy interpolation 종류 정리 (0)	2023.08.25
[matplotlib] x,y축 format 지정하는 방법 (0)	2023.06.08
[Matplotlib] 3D scatter plot 그리는 코드 (0)	2023.04.28
[데이터과학] Pandas에서 dataframe 생성 및 export (0)	2023.04.27
[데이터과학] 결측치 Missing Data 처리 (0)	2021.05.25

티스토리툴바