Notice
Recent Posts
Recent Comments
Link
관리 메뉴

뛰는 놈 위에 나는 공대생

[데이터과학] Data preprocessing 개요 본문

카테고리 없음

[데이터과학] Data preprocessing 개요

보통의공대생 2021. 5. 25. 17:00

1. Data Wrangling

 

raw 데이터를 cleaning하고 structuring하는 과정 - 분석에 용이한 구조로 만드는 과정

 

다음과 같은 과정을 포함합니다.

data importing, data cleaning, data structuring, string processing, HTML parsing, handling dates and
times, handling missing data, and text mining.

 

 

  • data filtering

전체 features에서 조건에 따라서 조건을 충족하는 데이터만 가지고 오는 것

 

ex) 야구선수 데이터에서 타율이 0.3 이상인 rows만 가지고 오기

 

  • data selecting

전체 features에서 일부 features만 선택하는 것

 

ex) 환자들의 측정 데이터에서 몸무게, 키, 혈액형 features만 추출하기

 

 

2. 데이터 preprocessing이 필요한 경우

  • Missing Data (결측치)

  • Duplicate observations (중복치)

  • Categorical variables
    범주형 변수는 데이터 모델에 따라서 적용하기 어렵기 때문에 따로 처리가 필요합니다.
  • Near-zero variance features & high correlation variables
    전체 샘플에서 feature가 거의 차이가 없는 변수는 0에 가까운 variance를 가집니다.
    또한 변수 간에 높은 상관관계를 갖는 변수들은 학습을 어렵게 만듭니다.
  • High dimensionality
    추후에 linear transformation과 nonlinear transformation 방법으로 분류해서 설명
Comments