n이 30이상이면 t-분포대신 정규분포를 이용하여 검정하라는 말이 있습니다.
이 말은 통계책 맨뒤에 나오는 t-분포표에 지면 관계상 자유도가 30이상이 없어서 어쩔 수 없이 정규분포표를 이용하는 경우에나 해당하는 구석기새대적 발상으로 컴퓨터가 발달된 요즘에는 무시해도 됩니다.
검정통계량이 정규분포를 따른다면 type I error(귀무가설이 사실일때 귀무가설을 기각하는 잘못된 결정을 내릴 확률)은 0.05입니다.
Pr( |Z| > 1.96) = 0.05
검정통계량이 t-분포를 따르는데 정규분포를 이용하여 귀무가설을 기각한다고 하죠. 즉, 표준화 시킨 t*이 1.96보다 크거나 -1.96보다 작으면 귀무가설을 기각한다고 합시다. 이때 type I error는 다음과 같이 정의됩니다.
Pr( |t| > 1.96)
R에서 계산해보도록 하겠습니다. 자유도(df)에 1:40을 넣어 1부터 40까지 자유도에 따른 type I error를 계산하였습니다.
> 2*(1-pt(1.96, df=1:40))
[1] 0.30034289 0.18905731 0.14485221 0.12155464 0.10728795 0.09769515
[7] 0.09081970 0.08565805 0.08164441 0.07843624 0.07581443 0.07363243
[13] 0.07178859 0.07021027 0.06884417 0.06765031 0.06659816 0.06566396
[19] 0.06482898 0.06407825 0.06339967 0.06278332 0.06222104 0.06170602
[25] 0.06123257 0.06079584 0.06039173 0.06001673 0.05966780 0.05934231
[31] 0.05903799 0.05875284 0.05848511 0.05823324 0.05799587 0.05777178
[37] 0.05755989 0.05735924 0.05716894 0.05698822
df=30인 경우 type I error는 0.05934231이고, df=40인 경우 type I error는 0.05698822입니다. 즉 자유도가 커질수록 t-분포의 type I error는 정규분포의 type I error인 0.05에 점점 가까와 지지만 여전히 0.05보다 커서 잘못된 의사결정을 내릴 확률이 증가합니다.
첫댓글 잘봤습니다. 평소에 깊이 생각하지 않으면 답하기 어려운 문제이지요.ㅎㅎ
일을하다보면 심심치않게 "대표본"의 기준이나 "신뢰수준"의 기준에 대해 명쾌한(!) 설명을 요청받는 경우가 많습니다.
특히 통계학을 잘 모르시는 '윗분'들인 경우나 규정같은데 반영을 해야하는 경우는 난감하죠..
실제로 '대표본'의 정의를 계량적으로 만들라해서 억지로 만든적이 있습니다. 그에 한 건이라도 모자라면 절대로 인정 안되는...ㅡㅡ;
그 기준을 보고 관계된 통계학박사님이 말도 안되는 기준이라고 누가 이런걸 만들었냐고 핀잔을 줬다는 후문을 들었습니다.
그러나, 임금노동자로서 그렇게라도 만들어주지 않으면 안되는 고충이 있었으니.... 그걸 담당자의 통계적 무지라고 생각하는 외부사람들의 오해가 억울했어요ㅠ
"신뢰수준"도 왜 95%냐고 물어보시는 분들이 많어요...신뢰수준은 허용할수있는 오차의 너그러움의 정도다..라하면 얼렁뚱땅 얼버무린다고 오해하는 사람들이 많아요.
적용하는 신뢰수준도 뭔가 딱딱 계산되서 나오는 값이라고 생각들하시다보니 어려움이 많네요.
이런 소통을 잘 하는것도 능력인데...아직 능력의 한계를 절감하고 있습니다.
숫자가 지저분하게 나오길래 1.96대신 2를 써서 곱해서 손계산을 했는데, 통계학책은 한번쯤은 보신 윗분이 그걸보고 막 뭐라하신 적이 있습니다. 1.96을 곱해야 "정확한"검증결과가 나오지 대~충 2곱해서 일을 대~충하는거 아니냐는...ㅡㅡ
대답하기 어려운 문제내요. 저도 보통 그냥 습관적으로 표본이 30을 기준으로 대표본 소표본으로 나눈다고 말했었는데.. 어찌됐건 통계하는 사람 입장으로선 표본이 많을 수록 좋은 것 같습니다.
실제로 샘플수가 적어도 100개 이상은 되야지 t-분포가 표준정규분포와 비슷해지는 걸 보면 30은 무리지 않나 싶습니다. 하지만, 모집단이 정규분포를 따르지 않을때에는 n > 30이 유용한 기준으로 쓰일수 있기때문에 요즘 시대라도 반드시 무시해야 할 말이라고 까지는 하기 힘들지 않을까 생각됩니다^^
30이 넘는데 정규분포를 따르지 않으면 비모수를 써야할지, 그냥 CLT으로 정규분포에 근사해서 해야하는지 그게 좀 애매하더라구.