일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- teps
- 수치해석
- pytorch
- obsidian
- Python
- IEEE
- Julia
- 수식삽입
- 생산성
- Linear algebra
- LaTeX
- JAX
- Dear abby
- 텝스
- matplotlib
- 인공지능
- 논문작성법
- 우분투
- WOX
- 논문작성
- 옵시디언
- 고체역학
- MATLAB
- Numerical Analysis
- 딥러닝
- ChatGPT
- 에러기록
- Zotero
- Statics
- 텝스공부
- Today
- Total
뛰는 놈 위에 나는 공대생
[추정] Estimation Theory 분류 본문
Estimation theory은 많은 분야에서 사용되고 있는 방법론이다.
최근 머신러닝이 빠르게 발전하면서 Estimation theory와 겹치는 영역이 많다는 것을 알게 되었고, estimation theory와 머신러닝을 따로 배우다보니, 비슷한 내용을 배우면서도 둘을 다르게 구별하는 일이 생겼다.
따라서 이 글에서는 estimation thoery와 machine learning에서 다루는 추정 방법에 대해 정리하고자 한다.
이 글의 내용은 단순 분류에 불과하며 구체적인 내용은 개별 글을 통해 정리하면 좋을 것이다. 또한 공부를 하다가 내용을 더 추가하거나 수정할 가능성도 열어두고 싶다.
기술적 용어의 경우에는 최대한 영어로 쓴다. 어차피 학계에서는 영어로 통용되기 때문에 한글로 번역해서 쓰면 혼선이 있을 수 있기 때문이다.
용어 정리
1. Inference
probabilistic model에서 prediction을 수행하는 것을 inference라고 하는데 꼭 probabilistic model이 아니어도 inference라고 쓰는 경우가 있다. (즉, non-probabilistic model에서 prediction하는 것도 inference라고 표현하는 경우가 있다.)
2. Non-parametric estimation vs. Parametric estimation
위에서 말한 probabilistic model/non-probabilistic model은 prediction을 위해 필요한 model이 확률적으로 표현되느냐 아니냐의 차이가 있다.
위의 parametric이라는 단어는 2가지 뜻으로 해석할 수 있다. parameter는 말 그대로 모델에 영향을 주는 model parameter로 해석할 수 있고, 확률통계에서 사용하는 빈도나 분포를 표현하기 위해 사용하는 quantity로서의 의미로 해석할 수 있다.(이 뜻을 이해하기 위해 아래 네이버 사전 링크를 첨부함)
https://en.dict.naver.com/#/entry/enko/e54f83a11fb9443d8038c5dc06acc6ce
전자의 의미로 본다면 non-parametric은 estimation을 할 때 model을 구성하는 parameter를 특정하지 않고 estimation을 수행하는 것으로 해석한다. 후자의 의미로 본다면 확률 분포에 대한 특정한 정보없이 수행하는 estimation을 의미한다. 즉, non-probabilistic과 유사한 의미로 사용되는 것이다. 이 두 가지 뜻이 혼재되어 사용되기 때문에 주의를 요한다.
Q. Parametric estimation과 Probability estimation의 차이
Parameteric estimation은 Probabilistic estimation의 subset이다. 이 probabilistic model을 정하고 이 모델의 parameter를 추정하는 추정하는 문제로 풀면 parametric estimation인 것이다. 즉, 확률적인 분포일 것이라고 생각하면서(=probabilistic estimation) specific probability 모델(ex. 가우시안 모델 등)을 정하고 이 모델의 파라미터를 추정하는 문제가 된다.
그렇다면 이런 의문이 들 것이다. Nonparametric estimation이면서 Probabilistic estimation인 것은 무엇인가? 대표적으로 kernel density estimation (KDE)의 경우 확률 모델일 것이라고 가정하지만 특정한 파라미터 수를 제한하지 않으므로 nonparametric estimation이다. KDE 방법은 각 데이터포인트에 커널을 부여하고 이를 더해서 최종적으로 Probability density function을 구한다.
spectrum estimation이라는 추정 방법이 있는데 이 추정 방법은 non-parametric estimation과 parametric estimation으로 구별한다. 여기서 말하는 parameter는 모델의 parameter를 말한다.
parametric estimation의 경우에는 특정 모델(AR, MA, ARIMA 모델 등)을 선정해서 그 안의 parameter를 추정하는 방식이고, non-parametric estimation은 periodogram이 대표적이며 signal의 PSD를 추정하는 방법이다.
3. Estimate & Estimator
아래 그림을 보면 observation에 대해서 적절한 estimator를 골라 추정된 model parameter $\hat{\theta}$를 estimate라고 한다. estimator는 y에 대한 estimate의 함수이고, 실제 observation을 대입해서 얻은 것을 estimate라고 이해할 수 있다.
분류
1. 무엇을 estimation할 것인가?
estimation을 수행할 대상에 따라서 분류를 할 수 있는데 대표적으로 아래와 같다.
Point estimation
Sequence estimation
Waveform estimation
point estimation은 특정 값(그것이 스칼라이든 벡터이든 관계없이)을 측정한다.
보통은 내가 알고 싶은 모델에 있는 정적인(static) 파라미터를 여러 샘플이 주어질 때 추정하는 것을 point estimation이라고 한다.
또는 static estimation vs. dynamic estimation으로 분류할 수도 있는데 static estimation은 시간에 따라 변하지 않는 상수 파라미터를 추정하는 것이고 dynamic estimation은 시간에 따라 변하는 상태변수를 추정하는 것이다.
2. Probabilistic model vs. Non-probabilistic model
여기서 parametric model와 nonparametric model로 표현하기도 한다. 여기서 사용되는 parameter는 population parameter(모수)를 뜻하는 말이다. 즉, 확률모델을 만들고 그 확률모델을 기반으로 추정하는 것인지 아닌지에 따라 구별할 수 있다.
3. Bayesian estimation vs. Non-Bayesian estimation
Bayes라는 학자가 만든 Bayes' theorem을 기반으로 한 추정인지 아닌지에 따라 또 구별할 수 있다.
Bayer' theorem은 식을 보면 두 가지를 주목할 수 있는데 하나는 조건부확률이라는 점이고, 다른 하나는 사전확률(prior probability)이 필요하다는 점이다.
조건부확률을 사용함으로써 Bayes' theorem을 이용해서
관찰한 결과를 봤을 때 내가 생각한 추정이 맞을 확률을 구하기 위해, 추정이 맞았을 때 그 결과가 나올 확률(Likelihood)과 사전확률을 결합하도록 식을 전개할 수 있는 것이다. 여기서 사전확률이 필요해진다.
즉, 관찰한 데이터를 기반으로 추정을 하고, 그 사전확률을 알 수 있거나 대략적으로 설정할 수 있다면 Bayesian estimation을 수행할 수 있다.
이러한 경험 기반 해석없이 관찰 결과만 보고 추정한다면 non-Bayesian estimation이 된다.
4. Estimation의 criteria
어떤 것이 좋은 estimation인가에 대해서 따질 때 여러가지 기준을 언급할 수 있다.
- Unbiased : estimator가 참값에서 얼마나 떨어져있는지?
- Consistent : 데이터 수가 증가함에 따라 수렴하는지?
- Efficient : estimator의 variance가 얼마나 크고 작은지?
bias나 variance문제 (위의 항목에서 Unbiased, Efficient)는 accuracy와 precision의 차이로 볼 수 있다.
precision(정밀도)는 분산이 얼마나 큰 지에 대한 평가이고, accuracy(정확도)는 얼마나 참값에 가까운지에 대한 평가이다.
위의 기준이 모든 estimator에 통용되는 기준은 아니지만 MLE estimator는 asymptotically consistent and efficient임이 증명되어있다.
참고자료
https://en.wikipedia.org/wiki/Nonparametric_statistics
수학으로 풀어보는 칼만필터 알고리즘
'추론 & 추정 이론 Estimation' 카테고리의 다른 글
Maximum likelihood estimator에 대한 논문 (0) | 2023.08.01 |
---|---|
[추정] Estimator 역할 : Prediction, smoothing, filtering (0) | 2023.07.24 |