목록머신러닝 (15)
컴공생의 다이어리

확률(Probability) 아래와 같이 사과 2개와 바나나 1개가 있을 때 사과를 집을 확률과 바나나를 집을 확률은 각각 아래와 같다. 조건부 확률(Conditional Probability) 어떠한 상황이 주어졌을 때, 그 상황 속에서 다른 상황이 일어날 확률이다. 조건부 확률의 두가지 경우 1. 서로 영향을 끼치지 않을 때 예시 : 녹색 셔츠를 입었을 때 잭팟이 터질 확률 2. 서로 영향을 끼칠 때 예시 : 비가 오는 날에는 우산 장사가 더 잘 될 것이다. www.inflearn.com/course/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%EC%9D%B4%EB%A1%A0-%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%8B%A4%EC%8A%B5/lecture/9538..

위와 같이 8개의 사진 중 겨울 가족 여행사진을 찾으라고 했을 때의 엔트로피와 정보이득을 구해보자. 엔트로피 총 8개의 사진에서 1개의 사진만 겨울 가족여행 사진이고 나머지 7장은 아닐 때의 엔트로피를 Entropy([1+,7-])라고 나타낼 수 있다. p(+)의 경우 1/8, p(-)의 경우 7/8을 Entropy식에 대입해보면 0.543이라는 결과가 나온다. 따라서 엔트로피는 0.543이다. 정보이득(Information Gain) 정보이득은 주어진 상황에서 하나의 속성을 잡았을 때의 엔트로피를 빼면 된다. Information Gain(winter family photo), cartoon)은 cartoon을 속성으로 잡았을 때이다. E(winter family photo)는 앞서 구한 0.543이다..

불순도(Impurity) 불순도란 다양한 범주(Factor)들의 개체들이 얼마나 포함되어 있는가를 의미한다. 쉽게 말하면 여러 가지의 클래스가 섞여 있는 정도를 말한다. 반대로 순수도(purity)는 같은 클래스끼리 얼마나 많이 포함되어 있는지를 말한다. 예를 들어, 아래와 같이 항아리 3개가 있을 때, 1번과 3번 항아리는 순도 100%라 할 수 있으며, 2번 항아리는 불순도가 높은 상태라 할 수 있다. 이 불순도를 수치화한 지표로 엔트로피(Entropy), 지니계수(Gini Index) 등이 있는데, 불순도를 엔트로피로 계산한 알고리즘이 ID3이며, 지니계수로 계산한 알고리즘이 CART알고리즘이다. 엔트로피(Entropy) 엔트로피란 데이터의 분포의 순수도(purity)를 나타내는 척도이며, 데이터의..

의사결정트리(Decision Tree) 의사결정트리는 분류와 같은 의사결정을 수행할 때, 나무와 같이 가지치기를 하면서 분류하는 방법이다. 이는 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 속성의 조합으로 나타내는 분류 모형이다. 의사결정트리 분류절차 새로운 데이터 분류(classification) 해당 범주 값 예측 트리 구조의 일반화된 지식 추출 의사결정트리의 두가지 데이터 유형 범주형 연속형 분류나무(Classification Tree) 회귀나무(Regression Tree) 범주형은 분류나무로써 의사결정트리를 구성하며, 연속형은 회귀나무로 의사결정트리를 구성한다. 하지만, 의사결정트리는 회귀모델의 정확도가 낮기 때문에 주로 분류의 목적으로 사용된다. 의사결정트리 구성 의사결정트리..

kNN 알고리즘이란? kNN 알고리즘은 데이터로부터 거리가 가까운 'k'개의 다른 데이터의 레이블을 참조하여 분류하는 알고리즘으로 거리를 측정할 때 유클리디안 거리 계산법을 사용한다. kNN 알고리즘은 간단하지만 이미지 처리, 영상에서 글자 인식과 얼굴 인식, 영화나 음악, 상품 추천에 대한 개인별 선호 예측, 의료, 유전자 데이터의 패턴 인식 등 많은 분야에서 응용되어 사용된다. 개념 새로운 데이터가 입력되었을 때, 기존의 데이터와 새로운 데이터를 비교함으로써 새로운 데이터와 가장 인접한 데이터 k개를 선정한다. 이어서, k값에 의해 결정된 분류를 입력된 데이터의 분류로 확정한다. 즉, 새로 입력된 데이터와 기존 데이터를 비교함으로써 새로운 데이터를 유사하게 판단된 기존 데이터로 분류한다. cf) k는..