의사결정나무

의사결정나무(decision tree)는 회귀(regression) 또는 분류(classification)에 해당하는 기법으로서 선형 모형을 이용한 회귀분석이나 분류분석에 비해 해석하기가 쉽고 비선형성이나 상호작용을 자동적으로 다룰 수 있다는 장점이 있다.

아래는 District, HouseType, Income, PreviousCustomer 네 개의 이산형 변수로 역시 이산형 변수인 Outcome을 예언하는 의사결정나무이다. 나무의 맨 위에서 District 변수가 b 또는 c인지 확인한다. 만약 '예'라면 왼쪽으로, '아니오'라면 오른쪽으로 간다. District 변수가 a인 경우 나무는 끝나며 예측치는 Responded가 된다. 0/4는 이에 해당하는 자료의 수를 나타낸 것으로 District=a일 때 Outcome이 Nothing인 자료는 0, Responded인 자료는 4개라는 뜻이다.

참고

  1. 다른 통계방법들

패키지별 의사결정나무 분석

  1. R