본문 바로가기

NEWCONCEPTS

자유도: degree of freedom

대학교에서 기초통계를 배울 때, 듣고 들어도 항상 헷갈리는 컨셉들이 있다.

 

계속 듣다가보면 '아 그런가보다' 싶다가도 며칠만 지나면 다시 헷갈리는 그런 개념들.

 

난 고집이 굉장히 쎈 편이고, 납득할만한 이유가 없다싶으면 아무리 꾸겨넣어도 머릿속에서 정기적으로 포맷을 하는 것처럼 까먹곤 한다.

 

그 중 하나가 자유도 (degree of freedom) 였다. 

 

잊고 있었는데(그리 중요한 컨셉이였다면 훨씬 전에 기억해내고 다시 정리하지 않았을까), 통계학 원론을 훑다가 표본 표준편차를 구하는 공식에서 생각났다. 모집단에서 분산을 구할때는 평균처럼 N으로 나누면서, 왜 표본집단에서 구할 때는 n-1로 나눠서 구하는 걸까.

 

그럼 각설하고, the sample variance: why Divide by n-1? 에서 배운 내용을 정리해보자.

 

 

  분산 (variance)
모집단 sigma(xi-mu)^2/N
표본집단  sigma(xi-xbar)^2/n sigma(xi-xbar)^2/(n-1)

 

먼저 우리가 구하려는 분산에 대해 생각할 필요가 있다.

 

분산은 데이터에서 평균값을 기준으로 데이터들이 얼마나 분포되어있나를 알려주는 지표이다.

 

그래서 모집단 값을 알 때에는 자연스럽게 sigma(xi-mu)^2/N가 된다. 하지만 이건 어디까지나 모집단에 대한 평균을 알고 있을 때의 얘기이다.

 

만약 mu에 대한 정보가 없다면, 우리는 자연스럽게 표본에서의 평균값인 xbar를 사용할 수 밖에 없다. 그런데,어떤 데이터를 추출하냐에 따라 xbar는 mu와 다를 수 있다. 전체 데이터를 순서대로 나열했을 때, 추출한 표본 값들이 가장 크거나 작거나 한쪽으로 쏠려 있을 경우에 xbar는 모집단의 평균이 mu와는 너무나 다른 값을 갖게 된다는 거다. 물론 표본 수(sample size)가 크다면 이런 고민을 안 해도 될 테지만 말이다. 그리고, 표본에서 구한 평균값 xbar는 본질자체가 표본집단으로부터 항상 가장 짧은 거리이다.(=sigma(xi-xbar)^2의 최소값) 그러니까 표본 값들이 실제 모집단의 값들과 얼마나 다른지 무시한다고 해도, xbar는 표본집단에서 구한 평균값이기 때문에 항상 모집단 평균 mu보다 작게 된다. 이러한 현상을 보상해주기 위해 분모 n 대신 n-1을 나눠주는 것이다.

 

그럼 대체 왜 n-1로 나누는 것일까? 영상에서는 자유도로 설명을 대신한다.

 

자유도는 어떤 값을 계산할 때 사용되는 변수들 중 '자유로울 수 있는 변수의 갯수'를 뜻한다. 이 '자유로울 수 있다'는 것의 의미가 헷갈렸었다. 무엇을 기준으로 자유롭다는 것인가. 포괄적으로 설명하긴 힘들다. 위에서 말했다시피 표본집단에 대한 정보만 가지고 있을 때 xbar를 통해 mu를 예측해야한다. 모집단에서 모평균을 알 때에 표본 데이터의 값들은 아무 값이나 가져도 된다. 하지만, 표본평균을 기준으로 분산을 구할 때에는, 표본평균은 표본데이터로부터  (계속 같은 말을 반복하는 것 같다;;) 구한 값이기 때문에, 표본 데이터들이 마냥 자유롭지만은 않다는 거다. 양보하고 양보해도 표본데이터 중 하나의 값은 표본 평균 (fix된 값) 때문에 자유롭지 못하다는 얘기다. 

 

정리하자면...

 

1. 우리가 가지고 있는 것은 표본 집단. 모집단에 대한 정보는 없음.

 

2. 표본집단으로부터 분산을 구하려고 함.

 

3. 분산은 각 관측값의 평균으로부터의 차이의 제곱을 나눈 것 -> 각 관측값들이 분산을 계산하는 데 필요함

 

4. 표본집단만 있으므로 모평균 mu 대신, 표본평균 xbar 사용. xbar는 각 관측값 총 합 / 표본 크기

 

5. 분산을 구하기 위해서 필요한 것들 : 표본평균 xbar, 관측값들

 

6. 표본평균이 이미 고정되어있기 때문에 관측값들 중 하나는 자유롭지 못하고, 표본평균을 기준으로 값이 정해짐.

 

지금까지 영상을 통해 내가 이해한 부분을 정리해보았다. degree of freedom은 분산에만 그치지 않고, 회귀분석, 가설검정, 그리고 여러 과학 분야에도 나오는 중요한 컨셉이다. 앞으로 공부하면서 이 글을 토대로 관련된 자유도에 대한 내용을 추가해야겠다.

 

처음 쓰는 글이라 내 생각을 정리하기에 급급해서 두서없이 어렵게만 늘어놓은 것 같다. 틀린 부분도 있을 수 있고. 앞으로 꾸준히 공부한 내용을 정리해나가면서 언젠가 내 글이 누군가에게 쉽고 유용한 가이드가 될 수 있도록 노력해야겠다. 

 

 

'이해가 안되는 것들이 있으면 직접 쓰거나 그려보면서 (build up) 왜 이렇게 될 수 밖에 없었는지에 대해 고민해라' 

 

'NEWCONCEPTS' 카테고리의 다른 글

classification with localization (one object per image)  (0) 2020.06.18
벡터 유사도 구하기  (0) 2020.03.30
알고리즘  (0) 2020.02.26
A = CR (columns) X(Rows)  (0) 2020.02.26
Maximum Likelihood Estimation (최대 우도 추정법)  (0) 2020.02.18