Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 에러기록
- 논문작성법
- 인공지능
- Julia
- Zotero
- Numerical Analysis
- MATLAB
- Python
- 옵시디언
- JAX
- 수치해석
- obsidian
- ChatGPT
- Linear algebra
- 텝스공부
- teps
- WOX
- 수식삽입
- matplotlib
- 우분투
- Dear abby
- 논문작성
- 생산성
- IEEE
- LaTeX
- Statics
- pytorch
- 텝스
- 고체역학
- 딥러닝
Archives
- Today
- Total
뛰는 놈 위에 나는 공대생
[데이터과학] Data preprocessing 개요 본문
1. Data Wrangling
raw 데이터를 cleaning하고 structuring하는 과정 - 분석에 용이한 구조로 만드는 과정
다음과 같은 과정을 포함합니다.
data importing, data cleaning, data structuring, string processing, HTML parsing, handling dates and
times, handling missing data, and text mining.
- data filtering
전체 features에서 조건에 따라서 조건을 충족하는 데이터만 가지고 오는 것
ex) 야구선수 데이터에서 타율이 0.3 이상인 rows만 가지고 오기
- data selecting
전체 features에서 일부 features만 선택하는 것
ex) 환자들의 측정 데이터에서 몸무게, 키, 혈액형 features만 추출하기
2. 데이터 preprocessing이 필요한 경우
- Missing Data (결측치)
- Duplicate observations (중복치)
- Categorical variables
범주형 변수는 데이터 모델에 따라서 적용하기 어렵기 때문에 따로 처리가 필요합니다. - Near-zero variance features & high correlation variables
전체 샘플에서 feature가 거의 차이가 없는 변수는 0에 가까운 variance를 가집니다.
또한 변수 간에 높은 상관관계를 갖는 변수들은 학습을 어렵게 만듭니다. - High dimensionality
추후에 linear transformation과 nonlinear transformation 방법으로 분류해서 설명
Comments