[머신러닝] Decision Tree
·
연구 Research/인공지능 Artificial Intelligent
번역하면 의사결정 나무라고 하는데, classification과 regression에 둘 다 쓰일 수 있는 머신러닝 방법입니다. decision tree는 feature에 대한 조건을 통해 가지를 치면서 학습하는 방법입니다. numerical, categorical variable 둘 다 쓸 수 있고 분석 과정이 직관적이라는 점 때문에 많이 쓰이고 있습니다. (나중에 쓸 random forest가 decision tree를 더 발전시킨 형태) 이 decision tree는 불순도(impurity, 범주들이 섞여있는 정도)를 최소화하는 방향으로 진행되어야 합니다. 우리가 decision tree를 사용할 때 이 불순도를 판단하기 위한 척도로서, 1) Gini index, 2) Entropy index가 사..
[데이터과학] 결측치 Missing Data 처리
·
연구 Research/데이터과학 Data Science
결측치에도 종류가 있기 때문에 각 결측치의 특성에 따라서 처리하는 방법이 달라질 수 있습니다. 1. 결측치 Missing data 종류 1) Missing completely at random (MCAR) 완전히 무작위로 Missing value가 있는 경우입니다. 관찰 가능한 변수에도 영향을 받지 않고, 관찰 불가능한 (우리가 관심있어하는) 변수에도 무관합니다. 예를 들면, 설문조사를 하는 데 성별이나, 나이에 관계없이 일정하게 결측치가 존재한다면 결측치가 설문의 결과를 편향되도록 만들지 않을 것입니다. 즉 이 데이터에 대한 분석은 unbiased되었다고 볼 수 있습니다. 2) Missing at random (MAR) 관찰된 데이터의 변수에 따라 결측치 경향성이 있을 뿐, 결측치 자체에는 그 경향성이..
파이썬에 대한 몇 가지 설명
·
프로그래밍 Programming/파이썬 Python
* 파이썬 관련한 정보를 간단하게 적어두고 있습니다. 계속 추가할 예정 C, C++은 컴파일러(compiler)이고 python은 인터프리터(interpreter) MATLAB이나 R은 Reserach, prototyping, and test new ideas를 목적으로 하는 언어 Java, C#, C++은 실제 production system을 만들기 위한 언어 FORTRAN은 과학적, 수학적 계산에 적합한 언어 python은 C, C++, FORTRAN 등의 언어와 호환이 되기 때문에 많이 사용된다. 실제로 데이터 사이언스 분야에서 가장 많이 쓰이는 언어는, Python, R, SQL 등이 있다.
[데이터과학] Data preprocessing 개요
·
카테고리 없음
1. Data Wrangling raw 데이터를 cleaning하고 structuring하는 과정 - 분석에 용이한 구조로 만드는 과정 다음과 같은 과정을 포함합니다. data importing, data cleaning, data structuring, string processing, HTML parsing, handling dates and times, handling missing data, and text mining. data filtering 전체 features에서 조건에 따라서 조건을 충족하는 데이터만 가지고 오는 것 ex) 야구선수 데이터에서 타율이 0.3 이상인 rows만 가지고 오기 data selecting 전체 features에서 일부 features만 선택하는 것 ex) 환자들..
[데이터과학] 데이터 분석 과정 data analysis process
·
카테고리 없음
데이터 과학을 하기에 앞서 기본적인 문제 해결 프로세스에 대해 알아보려고 합니다. 기계공학에서도 어떤 학문이든 들어가기에 앞서, 어떤 관점에서 문제를 접근할 것인지를 미리 introduction에서 알려주고 시작합니다. 데이터 과학도 결국은 문제를 해결하기 위해 존재하므로, 그 분석 process를 잘 알고 있는 것 역시 중요할 것이라 생각합니다. 1. Problem definition 내가 어떤 문제를 풀 것인지 정합니다. 생각보다 이렇게 문제를 명확하게 정의하지 못해서 발생하는 문제점들이 많습니다. 설계를 할 때도 문제 상황을 제대로 파악하지 않고 해결 방법을 들이댔다가 나중에 잘못 되는 경우를 종종 봤습니다. 데이터 분석을 할 때도 문제를 정의하면서 시작합니다. 예를 들면, 고객들의 구매 패턴을 알..
[머신러닝] Unsupervised learning : Clustering
·
연구 Research/인공지능 Artificial Intelligent
비지도학습 unsupervised learning의 가장 대표적인 방법이 clustering입니다. label이 없기 때문에 prediction이나 classification이 불가능하고 객체 간의 유사성이 큰 것들끼리 묶어주는 방법입니다. 유사성 기준으로 1) 거리를 계산하거나 2) 상관계수를 구하는 방법이 있습니다. 1. 유사성 척도 1) 거리 두 n차원 데이터 $P=(p_{1},p_{2},...,p_{n})$과 $Q=(q_{1}, q_{2},..., q_{n})$이 있을 때 두 점 사이의 거리는 다양하게 구할 수 있습니다. - 유클리디안 거리(euclidean distance) 가장 흔하게 쓰이는 거리 척도 $d(P,Q)=\sqrt{\sum_{i=1}^{n}(p_{i}-q_{i})^{2}}$ - 민..
[매트랩MATLAB] 기호 대입
·
프로그래밍 Programming/매트랩 MATLAB
https://kr.mathworks.com/help/symbolic/subs.html?searchHighlight=%EA%B8%B0%ED%98%B8%20%EB%8C%80%EC%9E%85&s_tid=srchtitle 기호 대입 - MATLAB subs - MathWorks 한국 다음 MATLAB 명령에 해당하는 링크를 클릭했습니다. 명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다. kr.mathworks.com MATLAB 내에서 기호를 만들면 함수를 사용하기가 편해집니다. $f(x)=x^{3}+x$라는 함수를 기호로 정의하고 나중에 숫자만 대입해주면서 구할 수 있기 때문입니다. 이 때 기호를 대입할 때 쓰는 함수를 subs라고 합니다. syms..
[개념] Equivalent와 Equipollent force
·
기계공학 Mechanical engineering/고체역학 Statics & Solid mechanics
Equivalent : 어떤 rigid body에 작용하는 forces로 구성된 시스템은 특정 점 O에 대한 force-couple system으로 바꿔줄 수 있다. 만약에 rigid body에 작용하는 두 종류의 systems of forces가 있을 때 각각이 특정 점 O에서 동일한 force-couple system으로 reduce된다면, 두 systems of forces는 동일한 것이 된다. 1번 시스템 $f_{1},f_{2},f_{3},...$로 구성된 것과 2번 시스템 $F_{1},F_{2},F_{3}$로 구성된 것이 한 점에서 요약해보면 동일할 때를 말한다. 또한 systems of vectors의 resultants 와 moment resultants가 임의의 점에서 동일하다면 equip..
[기계재료학] 재료의 성질 (강도, 경도, 강성 등)
·
기계공학 Mechanical engineering
기계재료학에서 공부한 재료에 대한 물성을 정리합니다. Resilience the ability of a material to absorb and release elastic strain energy. Strength 다양한 종류의 강도(strengh)가 있습니다. 그 중에서도 Yield Strength, Ultimate Strength, Fracture Strength가 있는데 Yield Strength는 plastic deformation이 시작되는 strength Ultimate Strength는 necking이 발생하기 시작하는 strength Fracture Strength는 facture가 발생할 때의 strength Toughness Total energy per unit volume the ..
[고체역학] Statics Ch7 : Internal Forces and Moments (2) Cable
·
기계공학 Mechanical engineering/고체역학 Statics & Solid mechanics
cable 역시 beam 처럼 internal force를 고려하는 물체이지만, beam과 다르게 cable은 x축에 따른 y축의 위치가 달라서 이 부분을 고려해야 합니다. 1. Cable With Concentrated Loads 다음과 같이 일부 지점에만 집중적으로 load가 작용할 때 몇 가지 가정이 필요합니다. load가 vertical하게 작용하고 있고, cable의 무게는 무시하며, cable은 flexible하므로 bending에 대해 고려하지 않습니다. 또 힘이 작용하는 cable의 각 부분은 two force member처럼 취급합니다. cable 분석은 최종적으로 cable이 어떤 모양을 갖는지, 즉 주어진 load에 대해 cable의 vertical distance가 어떤지 구합니다...