[데이터과학] Data preprocessing 개요 — 뛰는 놈 위에 나는 공대생

1. Data Wrangling

raw 데이터를 cleaning하고 structuring하는 과정 - 분석에 용이한 구조로 만드는 과정

다음과 같은 과정을 포함합니다.

data importing, data cleaning, data structuring, string processing, HTML parsing, handling dates and
times, handling missing data, and text mining.

data filtering

전체 features에서 조건에 따라서 조건을 충족하는 데이터만 가지고 오는 것

ex) 야구선수 데이터에서 타율이 0.3 이상인 rows만 가지고 오기

data selecting

전체 features에서 일부 features만 선택하는 것

ex) 환자들의 측정 데이터에서 몸무게, 키, 혈액형 features만 추출하기

2. 데이터 preprocessing이 필요한 경우

Missing Data (결측치)
Duplicate observations (중복치)
Categorical variables
범주형 변수는 데이터 모델에 따라서 적용하기 어렵기 때문에 따로 처리가 필요합니다.
Near-zero variance features & high correlation variables
전체 샘플에서 feature가 거의 차이가 없는 변수는 0에 가까운 variance를 가집니다.
또한 변수 간에 높은 상관관계를 갖는 변수들은 학습을 어렵게 만듭니다.
High dimensionality
추후에 linear transformation과 nonlinear transformation 방법으로 분류해서 설명

저작자표시 비영리 변경금지 (새창열림)

티스토리툴바