Notice
Recent Posts
Recent Comments
Link
관리 메뉴

뛰는 놈 위에 나는 공대생

[데이터과학] 데이터 분석 과정 data analysis process 본문

카테고리 없음

[데이터과학] 데이터 분석 과정 data analysis process

보통의공대생 2021. 5. 25. 16:41

 

데이터 과학을 하기에 앞서 기본적인 문제 해결 프로세스에 대해 알아보려고 합니다.

 

기계공학에서도 어떤 학문이든 들어가기에 앞서, 어떤 관점에서 문제를 접근할 것인지를 미리 introduction에서 알려주고 시작합니다.

 

데이터 과학도 결국은 문제를 해결하기 위해 존재하므로, 그 분석 process를 잘 알고 있는 것 역시 중요할 것이라 생각합니다.

 

1. Problem definition

내가 어떤 문제를 풀 것인지 정합니다. 생각보다 이렇게 문제를 명확하게 정의하지 못해서 발생하는 문제점들이 많습니다. 설계를 할 때도 문제 상황을 제대로 파악하지 않고 해결 방법을 들이댔다가 나중에 잘못 되는 경우를 종종 봤습니다.

 

데이터 분석을 할 때도 문제를 정의하면서 시작합니다.

예를 들면, 고객들의 구매 패턴을 알아내서 마케팅에 적용해보고 싶다, 등의 정의가 있을 것입니다.

 

2. Data collection & preparation

 

문제를 해결하기 위해 필요한 데이터를 수집하는 단계

 

3. Feature engineering

 

대부분의 데이터는 raw data 그 자체를 쓰는 경우는 없습니다.

missing data, duplicated data가 존재할 수 있고

때로는 aggragate 값이 필요할 수도 있으며, feature가 너무 많은 경우에는 특정 feature만 골라서 사용하거나(feature selection) 또는 dimensional reduction 기법을 통해서 줄일 수 있습니다.

 

4. Model training

 

model training에는 다양한 분석 알고리즘이 사용될 것입니다.

분석 목적(classification, prediction, regression, data generation 등)과 데이터 특성(시계열 데이터, 이미지, 동영상, 텍스트 등)에 따라 적절한 알고리즘을 판단할 수 있어야 합니다.

 

5. Model evaluation

 

model이 제대로 작동되는지 판단하기 위해서 평가 지표를 확인하고, 또 파라미터를 최적화시키는 과정이 필요합니다.

 

6. DevOps

 

이렇게 학습한 모델을 실제 시스템에 적용하는 과정입니다.

model deployment - model serving - model monitoring

 

모델을 적용하고, 실제 작동해보면서 성능을 계속 모니터링하고 계속 유지보수를 해야합니다.

Comments