[인공지능] CUDA & cuDNN 설치하는 방법
·
연구 Research/인공지능 Artificial Intelligent
환경 : Windows 11설치버전 : cuDNN 8.2.2 / CUDA 11.4 이후 버전들은https://normal-engineer.tistory.com/356 [인공지능] Ubuntu 18.04에서 CUDA, CuDNN 설치이번에 리눅스 환경에서 CUDA, cuDNN을 설치하면서 있었던 시행착오를 기록하는 글이다. 기본적으로 Linux 환경에서 설치하는 방법은 매뉴얼에 잘 나와있어서 이 링크를 참고하면 되기는 하는데 디normal-engineer.tistory.comhttps://normal-engineer.tistory.com/483 확인    cudnn은 GPU로 인공지능을 돌릴 때 도와주는 라이브러리고CUDA는 GPU에서 수행하는 알고리즘을 C와 같은 프로그래밍으로 작성할 수 있도록 하는 프..
[데이터과학] Unbalancing data 처리
·
연구 Research/데이터과학 Data Science
majority(다른 클래스에 비해 샘플 수가 많은 클래스) 샘플 수가 minority 샘플 수가 차이가 많이 나면 학습을 하는데 어려움을 겪을 수 있습니다. 따라서 각 클래스의 샘플 수 균형을 맞춰주는 방법에 대해서 알아보겠습니다. 1. under-sampling majority 샘플수를 줄여서 minority 샘플 수와 균형을 맞추는 방법 2. over-sampling minority 샘플을 반복 샘플링하는 방법 3. Synthetic generation 위의 두 방법 외에도 SMOTE(Synthetic Minority Over-sampling Technique) 방법이 있습니다. minority에서 샘플을 복원추출하는 것 말고 인공적인 데이터를 추가로 생성하는 방법입니다. feature space에..
[머신러닝] Boosting method
·
연구 Research/인공지능 Artificial Intelligent
앙상블(ensemble) 방법 중에 boosting method가 있습니다. bagging도 ensemble에 속하는데, boosting과 차이가 있습니다. bagging 방법은 boostrap으로 데이터를 resampling해서 여러 개의 모델을 만들어서, 그 모델들을 종합하는 방식입니다. boosting 역시 여러 개의 모델을 만들지만, 그 모델에 가중치를 부여해서 가중치를 반복적으로 업데이트하는 방식입니다. Adaboost Updates weights of the observations at each iteration. Weights of well classified observations decrease relatively to weights of misclassified observations...
[머신러닝] Logistic Regression
·
연구 Research/인공지능 Artificial Intelligent
로지스틱 회귀모형을 통해 특정 class에 속할 확률을 알 수 있습니다. 1. Logistic Regression 소개 logistic regression은 우리가 흔히 사용하던 linear regression의 변형이라고 볼 수 있습니다. 그림 출처 : https://ko.wikipedia.org/wiki/%EC%8B%9C%EA%B7%B8%EB%AA%A8%EC%9D%B4%EB%93%9C_%ED%95%A8%EC%88%98#/media/%ED%8C%8C%EC%9D%BC:Logistic-curve.svg 위 함수는 $f(y)=\frac{1}{1+e^{-y}}$ $logit(p)=\ln\left(\frac{p}{1-p}\right)=\beta_{0}+\beta_{1}X$ linear regression처럼 회..
[머신러닝] Classification evaluation measure
·
연구 Research/인공지능 Artificial Intelligent
모델을 만들고 나서 이 모델이 실제로 사용되기 위해서는 모델의 성능을 고려해야 합니다. Sensitivity (민감도, True positive rate, recall) : 실제 true인 것 중에 모델이 true라고 예측한 비율 $\text{Sensitivity = }\frac{TP}{TP+FN}$ Specificity (True negative rate) : 실제 false인 것 중에 모델이 false라고 예측한 비율 $\text{Specificity = }\frac{TN}{FP+TN}$ Precision : 모델이 true라고 예측한 것 중에 실제로 true인 비율 $\text{Precision = }\text{TP}{TP+FP}$ F1 score : precision과 recall의 조화평균 $\..
[머신러닝] Decision Tree
·
연구 Research/인공지능 Artificial Intelligent
번역하면 의사결정 나무라고 하는데, classification과 regression에 둘 다 쓰일 수 있는 머신러닝 방법입니다. decision tree는 feature에 대한 조건을 통해 가지를 치면서 학습하는 방법입니다. numerical, categorical variable 둘 다 쓸 수 있고 분석 과정이 직관적이라는 점 때문에 많이 쓰이고 있습니다. (나중에 쓸 random forest가 decision tree를 더 발전시킨 형태) 이 decision tree는 불순도(impurity, 범주들이 섞여있는 정도)를 최소화하는 방향으로 진행되어야 합니다. 우리가 decision tree를 사용할 때 이 불순도를 판단하기 위한 척도로서, 1) Gini index, 2) Entropy index가 사..
[데이터과학] 결측치 Missing Data 처리
·
연구 Research/데이터과학 Data Science
결측치에도 종류가 있기 때문에 각 결측치의 특성에 따라서 처리하는 방법이 달라질 수 있습니다. 1. 결측치 Missing data 종류 1) Missing completely at random (MCAR) 완전히 무작위로 Missing value가 있는 경우입니다. 관찰 가능한 변수에도 영향을 받지 않고, 관찰 불가능한 (우리가 관심있어하는) 변수에도 무관합니다. 예를 들면, 설문조사를 하는 데 성별이나, 나이에 관계없이 일정하게 결측치가 존재한다면 결측치가 설문의 결과를 편향되도록 만들지 않을 것입니다. 즉 이 데이터에 대한 분석은 unbiased되었다고 볼 수 있습니다. 2) Missing at random (MAR) 관찰된 데이터의 변수에 따라 결측치 경향성이 있을 뿐, 결측치 자체에는 그 경향성이..
[머신러닝] Unsupervised learning : Clustering
·
연구 Research/인공지능 Artificial Intelligent
비지도학습 unsupervised learning의 가장 대표적인 방법이 clustering입니다. label이 없기 때문에 prediction이나 classification이 불가능하고 객체 간의 유사성이 큰 것들끼리 묶어주는 방법입니다. 유사성 기준으로 1) 거리를 계산하거나 2) 상관계수를 구하는 방법이 있습니다. 1. 유사성 척도 1) 거리 두 n차원 데이터 $P=(p_{1},p_{2},...,p_{n})$과 $Q=(q_{1}, q_{2},..., q_{n})$이 있을 때 두 점 사이의 거리는 다양하게 구할 수 있습니다. - 유클리디안 거리(euclidean distance) 가장 흔하게 쓰이는 거리 척도 $d(P,Q)=\sqrt{\sum_{i=1}^{n}(p_{i}-q_{i})^{2}}$ - 민..
[인공지능수학] Probability & Statistics 개념 복습
·
연구 Research/인공지능 Artificial Intelligent
빅데이터, 인공지능을 위한 수학에 대해서 정리합니다. 책은 The elements of Statistical Learning, Date Mining, Inference, and Prediction(Treveor Hastie 외 2명)을 참고할 것 같습니다. 수업을 들으면서 정리하는 내용이 주를 이룰 예정입니다. 제가 아직 확률 및 통계를 글로 정리하지는 않았지만 확률 및 통계 지식이 베이스로 있다고 생각하고 수업이 진행되기 때문에, 확률 및 통계 쪽 지식이 없으면 힘들 수도 있습니다. (저도 복습하면서 진행해야 할 것 같습니다ㅠ) 1. Probability와 관련된 용어 Set : Given a certain condition, the collection of well-defined distinct ob..
[고등자동제어] Singular Value Decomposition과 Degree of Controllability
·
연구 Research/제어 Control
이번에는 Singular Value Decomposition을 통해 matrix의 singular value를 구하고 이 singular value가 어떤 의미를 가지는지 살펴보겠습니다. 그리고 singular value가 기하학적으로, controllability 관점에서 어떤 의미가 있는지 보겠습니다. 1. Singular Value Decomposition 어떤 $m\times n$ matrix를 가질 때 이 matrix는 Unitary matrix $U,V$ 그리고 $\Sigma$를 포함한 matrix의 조합으로 표현할 수 있습니다. 어떻게 위와 같은 decomposition을 얻을 수 있는지, 순서대로 보여드리겠습니다. 복소수일 때는 $A^{*}A$, 실수일 때는 $A^{T}A$의 eigenva..