-
의사결정나무(Decision tree)AI 머신러닝 2019. 8. 19. 10:19반응형
와인데이터를 이용한 의사결정나무 분류
나 무 입 니 다 와인데이터 값입니다!
화이트 와인 값 레드와인 값 1. 의사결정나무란?
• 의사결정나무(decision trees)는 주어진 입력값에 대하여 출력값을 예측하는 모형
• 나무형태의 그래프로 표현
• 예측력은 다른 지도학습 기법들에 비해 대체로 떨어지나 해석력이 좋음주로 도산업체(큰 결정을 앞 둔 업체!), 신용등급/불량자 분류, 독버섯과 버섯을 분류하고 싶을때
독버섯 분류 2. 의사결정나무 구성요소
• 뿌리마디(root node): 시작되는 마디로 전체 자료를 포함
• 자식마디(child node): 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
• 부모마디(parent node): 주어진 마디의 상위마디
• 끝마디(terminal node): 자식마디가 없는 마디
• 중간마디(internal node): 부모마디와 자식마디가 모두 있는 마디
• 가지(branch): 뿌리마디로부터 끝마디까지 연결된 마디들
• 깊이(depth): 뿌리마디부터 끝마디까지의 중간마디들의 수3. 의사결정나무 모형의 종류
* 회귀나무 (regression tree): 출력변수가 연속형
* 분류나무 (classification tree): 출력변수가 범주형자료 형태 4. 의사결정나무모형 성장방법
1) 나무의 성장: 최대 크기의 나무 모형 형성 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로서 적절한 정지규칙을 만족하면 중단!
2) 가지치기: 최대 크기 나무모형에서 불필요한 가지를 제거, 오분류율(오차)를 크게 할 위험이 높거나 부적절한 가지 를 제거 !
3) 타당성 평가: 가지치기의 결과인 나무모형의 집합에서 최적 모형을 선택
4) 해석 및 예측: 구축된 나무모형을 해석하고 예측모형을 설정한 후 예측에 적용5. 나무 모형의 성장
나무모형 성자에는 여러개 있는데... 지니계수만 알아보자!
지니계수(Gini Index) : 범주형에서 데이터가 균일한 정도를 나타내는 지표, 즉 순도를 계산하는 식!모든 분리변수와 분리기준에서 지니지수를 가장 작게하는 분리변수와 분리기준을 선택!
반응형'AI 머신러닝' 카테고리의 다른 글
인공지능과 머신러닝, 딥러닝 (2) (0) 2019.09.05 인공지능과 머신러닝, 딥러닝(1) (0) 2019.09.05 로지스틱 회귀(Logistic Regression) (0) 2019.08.29 서포트 벡터 머신 (SVM) (0) 2019.08.29 앙상블(Ensemble) (0) 2019.08.19