NEWCONCEPTS
DecisionTree
silvercityz
2020. 6. 23. 11:23
https://www.youtube.com/watch?v=7VeUPuFGJHk
x variables : x1, x2, x3,...., xn
y variable : y (binary 0/1)
에 대해
각 x feature들이 y 값에 대해 어떤 연관이 있는지 확인.
예를 들어,
x1 >500 일 때, y = 1인 경우 80 y = 0인 경우 30
x1 <500 일 때, y = 1인 경우 70 y = 0인 경우 50
이렇게 binary로 나눠진 인덱스의 영향도 (x가 y에 미치는 영향, '과연 이 feature가 y값을 결정짓는데 영향력이 있는가')를 평가하기 위해서 gini impurity를 사용.
1 - pr(positive)^2 - pr(negative)^2
ex) x1>500일 때, 1 - (80/110)^2 - (30/110)^2과 x1<500일 때, 1 - (70/120)^2 - (50/120)^2
각 값을 구한 뒤, 이 feature에 대한 총 영향(선명도)를 평가하기 위해 x1>500일 때와 x1<500일 때 두 가지 옵션의weighed average를 구하면 gini impurity가 됨.