확률: 항아리에 n개의 흰색 구슬과 m개의 검은색 구슬이 있다. 이중에 a개의 검은색 구슬이 나올 가능성?
우도: 항아리에 100개의 구슬이 있는데, 구슬을 k번 추출했을 때, n개의 흰색 구슬과 m개의 검은색 구슬이 나왔다. 항아리에는 몇개의 검은색 구슬이 있을까?
확률은 모집단에 대한 정보를 바탕으로 구한다. 항아리가 모집단이라고 한다면, 이 항아리를 구성하는 구슬의 정보에 대해 알고 있기 때문에 확률을 구할 수 있다. 반면 최대 우도는 표본집단(sample)을 바탕으로 구한다. 어떤 시행에 대해 A라는 결과가 나왔을 때, 이 결과가 나올 정도가 우도이다. 쉽게 말하자면, sampling을 했을 때, 이 결과에 대해 얼마만큼 자신할 수 있는지에 대한 지표라고 할 수 있다. 그렇다면, 이 우도가 최대일 때, 우리가 시행결과에 대해 모집단의 정보와 최대한 가깝다고 자신할 수 있을 것이다.
sample을 통해 모집단에 대한 예측을 해야한다고 할 때, 최대 우도추정법이 빛을 발한다. 위의 예제에서 우리는 항아리에 대한 정보는 없지만, k번의 추출 (sample)에 대한 정보를 가지고 있다. 이 정보를 믿을 수 있는 정도가 '우도' (likelihood)이고, 이 우도가 최댓값을 가질 때, 우리는 항아리 안에 몇 개의 검은색 구슬이 있는지 파악할 수 있을 것이다.
일단 모델을 지정하고, 변수를 설정해준다. 전체 구슬 중 검은색 구슬이 나올 경우를 p라고 한다면, 흰색 구슬이 나올 경우는 1-p가 될 것이고, n개의 흰색 구슬과 m개의 검은색 구슬이 나올 확률은 p^m*(1-p)^n 과, 검은색 구슬과 흰색 구슬의 순서 조합인 (10 4)의 곱이 될 것이다.
검은색 구슬/전체 구슬 = p
흰색 구슬/전체 구슬 =1-p
n개의 흰색 구슬, m개의 검은색 구슬 = 10C4*p^m*(1-p)^n
이로써 위의 문제에 n개의 흰색 구슬과 m개의 검은색 구슬이 나올 우도에 대한 모델이 정의되었다.
항아리에 몇 개의 검은색 구슬이 있는지 (p) 에 대해 답하기 위해서는 우도가 최대가 되어야 우리가 변수로 지정한 p의 값에 대해 확신을 가질 수 있다. 그렇다면 최대 우도는 어떻게 구하는 것일까? 여기서는 log를 사용하면 된다. log함수는 특성상 x<y일 때는 무조건 log(x)<log(y)이다. 그러므로 log를 씌운다면 연산을 간단하게 하면서도 우리가 이루고자하는 목표는 유지할 수 있다. log를 씌우고 나면 log(c)+mlog(p)+nlog(1-p)의 값이 나온다. 이제 간단하다. 미분! 어떤 변수가 최소나 최대값을 가질 때는? 기울기가 0일 때이다. 이를 응용해서 미분을 하면 m/p+n/(1-p) =0이 나온다. 이제 p에 대해서 식을 풀어주면 된다. m이 4이고, n이 6이라면, p의 값은 4/10이 될 것이다. 우리가 구한 이 값을 풀어서 다시 적어보자. 100개의 구슬이 든 항아리에 10개의 구슬을 뽑았을 때, 4개의 검은색 구슬과 6개의 흰색 구슬이 나왔다고 한다면, 우리가 구슬을 뽑았던 경험을 통해 40개의 검은색 구슬이 항아리에 있을 것이라고 예측할 수 있다. 왜냐하면 이 '4개의 검은색 구슬과 6개의 흰색 구슬이 뽑힐 확률'은 단순히 우리가 운이 좋아서 생긴 사건이 아니라, 모집단의 구성이 어느정도 시행의 구성과 닮아있기 때문에 생긴 보편적인 사건이라는 것이다.
**만약 시행의 조합에 따라서 값이 바뀌고, 최대우도에 시행의 수는 영향을 미치지 않는다면, 시행의 수가 작아졌을 때, 이 결과에 대한 신뢰도는 어떻게 상대적으로 평가할 수 있을까? 예를 들어 시행의 수가 10번 그리고 검은색 구슬 4개일 때보다 시행의 수가 1000번 그리고 검은색 구슬이 400개일 때가 상대적으로 더 정확하다고 할 수 있는데, 이는 최대우도 추정법을 사용하면 같은 값에만 수렴할 뿐 정확도에 대한 평가는 없다는 것이다. 혹시 아시는분...? 이 문제 한번 검색해보고 추가수정하자.
'NEWCONCEPTS' 카테고리의 다른 글
classification with localization (one object per image) (0) | 2020.06.18 |
---|---|
벡터 유사도 구하기 (0) | 2020.03.30 |
알고리즘 (0) | 2020.02.26 |
A = CR (columns) X(Rows) (0) | 2020.02.26 |
자유도: degree of freedom (0) | 2020.02.10 |