Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 생산성
- 논문작성법
- MATLAB
- Zotero
- 텝스공부
- Linear algebra
- 인공지능
- pytorch
- 에러기록
- IEEE
- Dear abby
- 텝스
- obsidian
- LaTeX
- 딥러닝
- WOX
- Python
- ChatGPT
- 수치해석
- JAX
- 옵시디언
- 수식삽입
- Statics
- Julia
- matplotlib
- 우분투
- 논문작성
- 고체역학
- teps
- Numerical Analysis
Archives
- Today
- Total
뛰는 놈 위에 나는 공대생
[데이터과학] Unbalancing data 처리 본문
majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다.
따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다.
1. under-sampling
majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법
2. over-sampling
minority 샘플을 반복 샘플링하는 방법
3. Synthetic generation
위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다.
minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다.
feature space에서, 가지고 있는 minority data와 유사한 데이터를 새로운 데이터로 가져오는 것입니다.
(구체적인 방법론 및 수식은 추가하기)
python에는 imbalanced-learn이라는 라이브러리를 통해 SMOTE를 사용할 수 있습니다.
'연구 Research > 데이터과학 Data Science' 카테고리의 다른 글
[데이터과학] scipy interpolation 종류 정리 (0) | 2023.08.25 |
---|---|
[matplotlib] x,y축 format 지정하는 방법 (0) | 2023.06.08 |
[Matplotlib] 3D scatter plot 그리는 코드 (0) | 2023.04.28 |
[데이터과학] Pandas에서 dataframe 생성 및 export (0) | 2023.04.27 |
[데이터과학] 결측치 Missing Data 처리 (0) | 2021.05.25 |
Comments