1. Data Wrangling
raw 데이터를 cleaning하고 structuring하는 과정 - 분석에 용이한 구조로 만드는 과정
다음과 같은 과정을 포함합니다.
data importing, data cleaning, data structuring, string processing, HTML parsing, handling dates and
times, handling missing data, and text mining.
- data filtering
전체 features에서 조건에 따라서 조건을 충족하는 데이터만 가지고 오는 것
ex) 야구선수 데이터에서 타율이 0.3 이상인 rows만 가지고 오기
- data selecting
전체 features에서 일부 features만 선택하는 것
ex) 환자들의 측정 데이터에서 몸무게, 키, 혈액형 features만 추출하기
2. 데이터 preprocessing이 필요한 경우
- Missing Data (결측치)
- Duplicate observations (중복치)
- Categorical variables
범주형 변수는 데이터 모델에 따라서 적용하기 어렵기 때문에 따로 처리가 필요합니다. - Near-zero variance features & high correlation variables
전체 샘플에서 feature가 거의 차이가 없는 변수는 0에 가까운 variance를 가집니다.
또한 변수 간에 높은 상관관계를 갖는 변수들은 학습을 어렵게 만듭니다. - High dimensionality
추후에 linear transformation과 nonlinear transformation 방법으로 분류해서 설명