Notice
Recent Posts
Recent Comments
Link
관리 메뉴

뛰는 놈 위에 나는 공대생

[데이터과학] Unbalancing data 처리 본문

연구 Research/데이터과학 Data Science

[데이터과학] Unbalancing data 처리

보통의공대생 2021. 5. 26. 01:14

majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다.

따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다.

 

1. under-sampling

majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법

 

2. over-sampling

minority 샘플을 반복 샘플링하는 방법

 

 

3. Synthetic generation

위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다.

minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다.

 

feature space에서, 가지고 있는 minority data와 유사한 데이터를 새로운 데이터로 가져오는 것입니다.

 

(구체적인 방법론 및 수식은 추가하기)

 

python에는 imbalanced-learn이라는 라이브러리를 통해 SMOTE를 사용할 수 있습니다.

Comments