[데이터과학] Unbalancing data 처리

2021. 5. 26. 01:14·연구 Research/데이터과학 Data Science

majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다.

따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다.

 

1. under-sampling

majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법

 

2. over-sampling

minority 샘플을 반복 샘플링하는 방법

 

 

3. Synthetic generation

위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다.

minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다.

 

feature space에서, 가지고 있는 minority data와 유사한 데이터를 새로운 데이터로 가져오는 것입니다.

 

(구체적인 방법론 및 수식은 추가하기)

 

python에는 imbalanced-learn이라는 라이브러리를 통해 SMOTE를 사용할 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'연구 Research > 데이터과학 Data Science' 카테고리의 다른 글

[데이터과학] scipy interpolation 종류 정리  (0) 2023.08.25
[matplotlib] x,y축 format 지정하는 방법  (0) 2023.06.08
[Matplotlib] 3D scatter plot 그리는 코드  (0) 2023.04.28
[데이터과학] Pandas에서 dataframe 생성 및 export  (0) 2023.04.27
[데이터과학] 결측치 Missing Data 처리  (0) 2021.05.25
'연구 Research/데이터과학 Data Science' 카테고리의 다른 글
  • [matplotlib] x,y축 format 지정하는 방법
  • [Matplotlib] 3D scatter plot 그리는 코드
  • [데이터과학] Pandas에서 dataframe 생성 및 export
  • [데이터과학] 결측치 Missing Data 처리
보통의공대생
보통의공대생
수학,프로그래밍,기계항공우주 등 공부하는 기록들을 남깁니다.
  • 보통의공대생
    뛰는 놈 위에 나는 공대생
    보통의공대생
  • 전체
    오늘
    어제
    • 분류 전체보기 (460)
      • 공지 (1)
      • 영어 공부 English Study (40)
        • 텝스 TEPS (7)
        • 글 Article (21)
        • 영상 Video (10)
      • 연구 Research (99)
        • 최적화 Optimization (3)
        • 데이터과학 Data Science (7)
        • 인공지능 Artificial Intelligent (40)
        • 제어 Control (45)
      • 프로그래밍 Programming (103)
        • 매트랩 MATLAB (25)
        • 파이썬 Python (33)
        • 줄리아 Julia (2)
        • C++ (3)
        • 리눅스 우분투 Ubuntu (6)
      • 항공우주 Aeronautical engineeri.. (21)
        • 항법 Navigation (0)
        • 유도 Guidance (0)
      • 기계공학 Mechanical engineering (13)
        • 열역학 Thermodynamics (0)
        • 고체역학 Statics & Solid mechan.. (10)
        • 동역학 Dynamics (1)
        • 유체역학 Fluid Dynamics (0)
      • 수학 Mathematics (34)
        • 선형대수학 Linear Algebra (18)
        • 미분방정식 Differential Equation (3)
        • 확률및통계 Probability & Sta.. (2)
        • 미적분학 Calculus (1)
        • 복소해석학 Complex Analysis (5)
        • 실해석학 Real Analysis (0)
      • 수치해석 Numerical Analysis (21)
      • 확률 및 랜덤프로세스 Random process (2)
      • 추론 & 추정 이론 Estimation (3)
      • 기타 (26)
        • 설계 프로젝트 System Design (8)
        • 논문작성 Writing (55)
        • 세미나 Seminar (2)
        • 생산성 Productivity (3)
      • 유학 생활 Daily (7)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    수치해석
    딥러닝
    MATLAB
    obsidian
    논문작성
    Zotero
    생산성
    인공지능
    IEEE
    논문작성법
    Julia
    Numerical Analysis
    ChatGPT
    우분투
    Statics
    JAX
    서버
    Dear abby
    LaTeX
    Python
    WOX
    텝스
    텝스공부
    matplotlib
    고체역학
    pytorch
    옵시디언
    teps
    에러기록
    Linear algebra
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
보통의공대생
[데이터과학] Unbalancing data 처리
상단으로

티스토리툴바