목록엔트로피 (2)
컴공생의 다이어리
위와 같이 8개의 사진 중 겨울 가족 여행사진을 찾으라고 했을 때의 엔트로피와 정보이득을 구해보자. 엔트로피 총 8개의 사진에서 1개의 사진만 겨울 가족여행 사진이고 나머지 7장은 아닐 때의 엔트로피를 Entropy([1+,7-])라고 나타낼 수 있다. p(+)의 경우 1/8, p(-)의 경우 7/8을 Entropy식에 대입해보면 0.543이라는 결과가 나온다. 따라서 엔트로피는 0.543이다. 정보이득(Information Gain) 정보이득은 주어진 상황에서 하나의 속성을 잡았을 때의 엔트로피를 빼면 된다. Information Gain(winter family photo), cartoon)은 cartoon을 속성으로 잡았을 때이다. E(winter family photo)는 앞서 구한 0.543이다..
불순도(Impurity) 불순도란 다양한 범주(Factor)들의 개체들이 얼마나 포함되어 있는가를 의미한다. 쉽게 말하면 여러 가지의 클래스가 섞여 있는 정도를 말한다. 반대로 순수도(purity)는 같은 클래스끼리 얼마나 많이 포함되어 있는지를 말한다. 예를 들어, 아래와 같이 항아리 3개가 있을 때, 1번과 3번 항아리는 순도 100%라 할 수 있으며, 2번 항아리는 불순도가 높은 상태라 할 수 있다. 이 불순도를 수치화한 지표로 엔트로피(Entropy), 지니계수(Gini Index) 등이 있는데, 불순도를 엔트로피로 계산한 알고리즘이 ID3이며, 지니계수로 계산한 알고리즘이 CART알고리즘이다. 엔트로피(Entropy) 엔트로피란 데이터의 분포의 순수도(purity)를 나타내는 척도이며, 데이터의..