AI 머신러닝

의사결정나무(Decision tree)

KIMYOUNGIN 2019. 8. 19. 10:19
반응형

와인데이터를 이용한 의사결정나무 분류

나 무 입 니 다

와인데이터 값입니다!

화이트 와인 값
레드와인 값

 

1. 의사결정나무란? 
  • 의사결정나무(decision trees)는 주어진 입력값에 대하여 출력값을 예측하는 모형
  • 나무형태의 그래프로 표현
  • 예측력은 다른 지도학습 기법들에 비해 대체로 떨어지나 해석력이 좋음

주로 도산업체(큰 결정을 앞 둔 업체!), 신용등급/불량자 분류, 독버섯과 버섯을 분류하고 싶을때

독버섯 분류

2. 의사결정나무 구성요소
 • 뿌리마디(root node): 시작되는 마디로 전체 자료를 포함
 • 자식마디(child node): 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
 • 부모마디(parent node): 주어진 마디의 상위마디
 • 끝마디(terminal node): 자식마디가 없는 마디
 • 중간마디(internal node): 부모마디와 자식마디가 모두 있는 마디
 • 가지(branch): 뿌리마디로부터 끝마디까지 연결된 마디들
 • 깊이(depth): 뿌리마디부터 끝마디까지의 중간마디들의 수

3. 의사결정나무 모형의 종류
 * 회귀나무 (regression tree): 출력변수가 연속형
 * 분류나무 (classification tree): 출력변수가 범주형

자료 형태

4. 의사결정나무모형 성장방법
 1) 나무의 성장: 최대 크기의 나무 모형 형성 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로서 적절한 정지규칙을 만족하면 중단!
 2) 가지치기:  최대 크기 나무모형에서 불필요한 가지를 제거, 오분류율(오차)를 크게 할 위험이 높거나 부적절한 가지                      를 제거 !
 3) 타당성 평가: 가지치기의 결과인 나무모형의 집합에서 최적 모형을 선택
 4) 해석 및 예측: 구축된 나무모형을 해석하고 예측모형을 설정한 후 예측에 적용

5. 나무 모형의 성장

나무모형 성자에는 여러개 있는데... 지니계수만 알아보자!
지니계수(Gini Index) : 범주형에서 데이터가 균일한 정도를 나타내는 지표, 즉 순도를 계산하는 식! 

 

모든 분리변수와 분리기준에서 지니지수를 가장 작게하는 분리변수와 분리기준을 선택!

 

참조사이트:  https://ko.wikipedia.org/wiki/%EB%82%98%EB%AC%B4

              : http://m.todayhumor.co.kr/view.php?table=lol&no=603897

반응형