자유도(degree of freedom)은 정의하기가 상당히 애매합니다...어쨋든, 품질관리에 쓰이는 수학공식을 님들이 몽땅 외우시는 건 거의 불가능에 가깝습니다...(사람의 두뇌가 컴퓨터로 만들어져있지 않는 한...)
길은...암기량을 줄이는 것밖에요.. 암기량을 줄이려면.. 되도록이면 많은 공식에 대한 이해를 늘리는 수밖에 없습니다.
상당히 힘이 들지만.. 달리 방법은 없습니다...공부에 왕도는 없다고 하질않습니까... 노력하다보면. 언젠가는 해가 뜨겠죠..^^
자..일단 정의부터 해놓고 설명하져
모수라는 개념부터 이야기하져...
이항분포는 n(샘플크기,표본크기)와 p(특정사건이 일어날확률,불량률)만 알고 있으면 사용할수 있죠?
정규분포는 u(평균),시그마(분산)값만 알고 있으면 우리가 사용할 수 있습니다..
이처럼 어떤 분포를 사용하기 위한 최소한의 필요한 정보를 모수라고 할수있겠습니다.
-------------------------------------------------------------------
"자유도는 모수를 알고 있는 자유도에서 추정한 모수의 갯수만큼 감소한다."
-------------------------------------------------------------------
이렇게 말할수가 있겠습니다. 하지만 이말이 절대적인 건 아닙니다. 이말에 대한 정확한 정의를 내린 책을 본적은 개인적으로는 한번도 못봤습니다.ㅡ0ㅡ;;
1.검추정에서 평균에 관한 t-분포 검정.
평균치에관한 신뢰구간을 구한다거나 검정을 행할때 자유도가 n-1인 t분포를 이용한다는 것을 알고 계실겁니다..(혹은 알게 되시겠죠..^^)
왜 그러냐고 하면..몇분이 과연 대답을 할 수 있을까요?
t-분포는 어떤 집단에 대한 데이터가 정규분포를 따른다고 가정할 수 있을경우..하지만, 여러가지 이유로 필요한 샘플크기(--샘플크기가 30개넘으면 정규분포를 따른다고 할수있습니다.중심극한의 정리--) 를 얻을 수없을때에 즉,30개이하의 데이터를 가지고 검추정을 행할때에 사용합니다.
t-분포,x2(카이스퀘어)분포,f-분포 등은 자유도라는 개념을 가지고 있습니다.
t-분포의 원래의 자유도는 샘플크기만큼인 n이 됩니다.
하지만, 평균에 관한 검정을 행한다면..평균이 확실하지 않아서 test해본다는 의미겠죠?
u가 확실하지 않아서 표본평균으로 추정을 해보는 경우이므로 정규분포의 모수인 u를 추정한것이져...그래서 위의 말에 따라
자유도는 n 에서 한개를뺀 n-1이 됩니다.
2.두모집단의 t-검정 (분산은 서로 같다고 가정..그러나 분산은 모름)
두 모집단에 관해 t-검정을 행할시에는 자유도는 n+m-2 를 씁니다.
원래의 자유도는 두모집단의 샘플갯수인 n+m 입니다.
평균을 모르므로 평균의 추정값을 구합니다.
분산이 같다고 가정되나 알수 없으므로 표본분산을 가지고 pooling한 분산을 씁니다..Sp 라고 하져...
이렇게 정규분포의 모수인 u와 시그마중 두개다 추정했죠?
그래서 자유도는 원래의 자유도인 n+m 에서 2개를 뺀
n+m-2 가 됩니다.
3.두집단의 분산을 모르나 분산이 서로 다른경우는?
이때는 특별한 자유도를 씁니다. 이것은 어쩔수 없이 암기하세요.ㅡ.ㅜ
중간과정은 모르나 증명이 복잡하다고 하네요...
4.대응이 있는 두조의 t검정에서는?
대응이 있는다는 것에서 paired-t test 라고 불리웁니다. 예로써 다음과 같은 경우가 있겠네요..
예제>30대남성 10명을 표본으로 관찰하기로 하였습니다. A라는 약의 성능을 시험하려고 합니다.
그러면 데이터가 약을 복용하기 전의 수치와 복용한 후의 수치에 대한 데이터가 나오겠죠?
그런데..이 두 수치는 서로 독립(independent)가 아니라 종속적(dependent)인 경우죠?
왜냐하면 약을 먹기 전이든, 먹고 난 후든 같은 사람에게 실험을 한 것이기때문입니다. 같은 사람에 대해 약을 먹기 전과 후의 데이터는 그 사람몸의 상태에 따라 다르므로 영향을 서로 미친다고 할수있죠?
하지만,한사람이 약을 먹든 말든지간에 그 영향은 다른사람에게는 주지 않죠? 즉 각 사람간에는 서로 독립입니다.
이러한 실험의 경우에 paired-t 검정을 행합니다. 이럴때 약을 복용하고 난후의 데이터값에서 복용전의 데이터값을 빼고 그값들에 대한 평균치에 대한 검정을 행하죠? 이렇게 각 사람은 10명이므로 복용전데이터에서 복용후의 데이터를 뺀 값은 총 10개가 나옵니다.
원래의 자유도는 10입니다...(데이터가 복용전 10사람꺼, 복용후 10사람분의 데이터로 총 20개가 나오겠지만 각 사람들에게 행한 데이터는 서로 독립이 아니므로 결국은 서로 독립인 10개의 데이터에 대해 검정을 행하죠?)
하지만...여기서는 자유도를 1개만 뺍니다. 이점을 유의하세요..이유는 모르겠네요...이것은 어쩔수 없이 암기해야겠죠?
4.한개의 분산에 관한 검정
역시.. 분산을 몰라서 추정을하였으므로 자유도는 원래의 자유도 n 에서 한개를 뺀만큼이 됩니다. 이때는 x^2(카이스퀘어) 검정을 하게 되죠..카이스퀘어분포는 정규분포를 따르는 x 값들에 대해 제곱을 취하면 카이스퀘어분포를 따른다고 되어있습니다.
5.두개의 집단에 관한 분산검정
f분포로 검정을 하죠..f분포를 유도하는 과정을 보면 카이스퀘어분포 / 카이스퀘어 분포
가 됩니다...즉,카이스퀘어분포의 식을 두개 사용해서 f분포가 됩니다.
그래서 자유도는 n-1,m-1 두개를 사용합니다.
6.카이스퀘어,동질성,독립성검정(분할표를 이용한..)
이것까지 쓸려면 말이 꽤나 길어지겠군요..이것은 아래에 언급한 통계학책을 참조하도록 하세요.(제가 본 책중에서 가장 쉽습니다.)
지금까지 사용한 자유도에 관한 언급은 자유아카데미에서 출판한
통계학-엑셀을 이용한 분석- 에서 참조하였습니다.
어쨌거나..자유도에 관한 내용은 상당히 미묘합니다...
실험계획법에서도 통용되는 법칙은
제곱합의 자유도=제곱을 하여 더하는 항의 수-각 항들에 의하여 만족되는 선형제약조건의 수
라고있지만.. 말자체가 어려울 뿐만 아니라 이해하는데 다른 배경지식이 필요해서 설명은 안하겠습니다.
그리고..실험계획법에 있는 자유도는 외우기가 비교적 쉽구요...쥔장은 그냥 몽땅 외워서 셤봤슴돠 ㅡ0ㅡ;;
머...자유도에 관한 논문을 읽어봤는데 역시나 애매한 소리밖에 안하더군요....자유도에 관해서 자신있게 정의 할 수 있는 사람은 아마도 만든 사람밖에 없을듯....
여기까지 읽느라 수고하셨구요... 너무 깊게 어렵게 생각하지 마시고 그저 이런게 있구나 하는 수준으로 넘기세요...^0^