컴공생의 다이어리
의사결정트리(Decision Tree) 본문
의사결정트리(Decision Tree)
의사결정트리는 분류와 같은 의사결정을 수행할 때, 나무와 같이 가지치기를 하면서 분류하는 방법이다. 이는 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 속성의 조합으로 나타내는 분류 모형이다.
의사결정트리 분류절차
- 새로운 데이터 분류(classification)
- 해당 범주 값 예측
- 트리 구조의 일반화된 지식 추출
의사결정트리의 두가지 데이터 유형
범주형 | 연속형 |
분류나무(Classification Tree) | 회귀나무(Regression Tree) |
범주형은 분류나무로써 의사결정트리를 구성하며, 연속형은 회귀나무로 의사결정트리를 구성한다. 하지만, 의사결정트리는 회귀모델의 정확도가 낮기 때문에 주로 분류의 목적으로 사용된다.
의사결정트리 구성
의사결정트리는 대표적으로 노드(Node), 가지(Branch), 깊이(Depth)로 구성된다. 의사결정트리의 명칭은 아래와 같다. 노드는 위치에 따라 5개로 나눌 수 있다.
노드(Node) | 뿌리마디(Root Node) | 시작되는 마디로 전체 자료 포함 |
자식마디(Child Node) | 마디에서 분리된 2개 이상의 마디 | |
부모마디(Parent Node) | 주어진 마디의 상위 마디 | |
끝마디(Terminal Node) | 자식 마디가 없는 마디 | |
중간마디(Internal Node) | 부모, 자식마디가 모두 있는 마디 | |
가지(Branch) | 뿌리마디로부터 끝마디까지 연결된 마디들 | |
깊이(Depth) | 뿌리마다 끝마디까지의 중간마디들의 수 |
의사결정트리 모형 구축
- 의사결정트리 생성 : 자료구조에 따른 분리기준 설정, 정지 규칙 지정 및 트리 생성
- 가지치기 : 분류가 잘못될 가능성을 가진 가지 제거, 부적절한 규칙을 가지는 가지 제거
- 평가 : 이익도표, 위험도표, 검증용 데이터 활용 평가
- 해석 및 예측 : 의사결정트리 해석 및 예측모형 결정
의사결정트리 분리
의사결정트리를 생석하기 위해서는 반복적인 분할로 트리를 학습해야 한다. 분할 기준은 부모마디 보다 자식마디의 순수도가 증가하도록 분류해야 한다. 이러한 반복적 분리 과정은 모든 공간을 직사각형으로 나누어서 각 직사각형이 가능한 한 순수하게 동질적(Homogeneous)이 되도록하는 것이다.
cf) 순수도란? 특정 범주의 개체들이 포함되어 있는 정도이다.
반복적 분할 | 훈련용 데이터로 독립변수의 차원 공간을 반복적으로 분할 |
가지치기 | 평가용 데이터를 이용하여 가지치기를 수행 |
분할기준 | 부모마디 보다 자식마디의 순수도가 증가하도록 분류 |
의사결졍트리 분리 기준
의사결정트리 분리 기준은 크게 카이제곱 통계량 p-value, 지니 지수, 엔트로피 지수가 분류 기준으로 사용된다.
의사결정트리 정지 기준
- 더 이상 분리 불가
- 현재 마디가 끝마디가 되도록함
- 의사결정 나무의 깊이를 지정
- 끝마다 레코드 수의 최소 개수 지정
의사결정트리 가지치기 기준
- 구축된 모형에 테스트 데이터 적용
- 전문가가 모형의 타당성 검토
의사결정트리의 장단점
장점 | 단점 |
이해하기 쉬운 규칙 : If ~ Then 형식 분류예측에 유용 연속형, 범주형 모두 취급 가능 변수의 중요성 비교가능 비교적 빠른 속도 |
연속형 변수값을 예측할 때 적당하지 않음 회귀모양에서 예측력이 떨어짐 트리 모형이 복잡하면 예측력 저하, 해석 어려움 데이터 변형에 민감하여 안정적이지 않음 |
728x90
반응형
'데이터 분석 & 머신러닝' 카테고리의 다른 글
베이즈 정리(Bayes Theorem) (0) | 2021.01.09 |
---|---|
확률(Probability) (0) | 2021.01.09 |
엔트로피, 정보이득 계산과 ID3알고리즘 (0) | 2021.01.09 |
불순도(Impurity)와 엔트로피(Entropy) (3) | 2021.01.08 |
kNN(k Nearest Neighbor) 알고리즘 (0) | 2021.01.06 |
Comments