본문 바로가기

NEWCONCEPTS

DecisionTree

https://www.youtube.com/watch?v=7VeUPuFGJHk

x variables : x1, x2, x3,...., xn

y variable : y (binary 0/1)

 

에 대해

 

각 x feature들이 y 값에 대해 어떤 연관이 있는지 확인.

예를 들어,

x1 >500 일 때, y = 1인 경우 80 y = 0인 경우 30

x1 <500 일 때, y = 1인 경우 70 y = 0인 경우 50

 

이렇게 binary로 나눠진 인덱스의 영향도 (x가 y에 미치는 영향, '과연 이 feature가 y값을 결정짓는데 영향력이 있는가')를 평가하기 위해서 gini impurity를 사용. 

1 - pr(positive)^2 - pr(negative)^2

ex) x1>500일 때, 1 - (80/110)^2 - (30/110)^2과 x1<500일 때, 1 - (70/120)^2 - (50/120)^2

각 값을 구한 뒤, 이 feature에 대한 총 영향(선명도)를 평가하기 위해  x1>500일 때와 x1<500일 때 두 가지 옵션의weighed average를 구하면 gini impurity가 됨.

'NEWCONCEPTS' 카테고리의 다른 글

(파이썬) list와 array의 차이점  (1) 2020.06.23
classification with localization (one object per image)  (0) 2020.06.18
벡터 유사도 구하기  (0) 2020.03.30
알고리즘  (0) 2020.02.26
A = CR (columns) X(Rows)  (0) 2020.02.26