95% 신뢰구간은 종종 그 구간이 참값을 포함할 확률이 95%라고 잘못 해석된다.
어느 대통령 선거에 대한 출구조사를 실시했다.
그 출구조사 결과 A후보의 득표율은 53%이고, 그 95% 신뢰구간은 49%-57%였다고 하자.
출구조사는 지역별 성별 나이별로 인구비례를 고려한 잘 디자인된 표본조사이다.
다른 기관에서 출구조사를 했다면 표본오차가 있어서 조금씩 다른 결과가 나올 것이다.
이런 표본조사를 100번 실시해서 각각 95% 신뢰구간을 구했다고 하자.
그러면 100개의 95% 신뢰구간을 구할수 있을 것이다.
위에서 구한 (49%-57%)는 그중 하나이다.
이 100개의 95% 신뢰구간중 95개정도는 실제 A후보의 득표율(실제 개표에서 구한)을 포함하고,
나머지 5개정도는 포함하지않는다는 것이 95% 신뢰구간이다.
즉 위의 조사에서 구한 실뢰구간 (49%-57%)가 실제 A후보의 득표율을 포함하는 구간일 확률이 95%라고 해석해야 맞다.
이것은 (49%-57%)가 표본조사를 무한 반복해서 구할 수 있는 무한히 많은 신뢰구간중 하나라는 개념으로 생각해야한다.
이 개념은 (49%-57%)가 실제 A후보의 득표율을 포함할 확률이 95%라는 것과는 차이가 있다.
말장난같고 상당히 헛갈리니 몇일 머리 속에 넣어놓고 잘 생각해보기 바란다.
첫댓글 자주 나오는데도 막상 설명하려면 쉽지 않지요.
류근관 교수님의 통계학3판에
나오는 그래프입니다 이거보시면
이해가 한결 잘되실겁니다^^
@고성우 감사합니다.^^
Wikipedia: Once an experiment is done and an interval calculated, this interval either covers the parameter value or it does not, it is no longer a matter of probability. The 95% probability relates to the reliability of the estimation procedure, not to a specific calculated interval.
신뢰구간이 생각보다 만만한 개념은 아닌 것 같아 요새 곰곰히 곱씹고 있는데요, 네이먼의 말에 의하면, 신뢰구간은 변수(샘플링할 때마다 나오는 상/하한값)일 때 확률로서 의미가 있고, 한번 신뢰구간이 나오면 이는 더이상 변수가 아닌 상수로서, 구간내 모수가 포함될 확률이 얼마다하는 얘기를 할 수 없다는 이야기를 합니다. "상수"라는 데에 방점을 두어 설명하는 것도 좋을 것 같습니다^^
그쵸! 딩동댕~ 변수가 아니라 상수^^
모두 멋지십니다.
학부때부터 교수님께서 계속 강조하셨던 부분인데, 석사과정 와서도 종종 잘못 해석하고는 했던 개념입니다. 이 글을 보고 나니 조금더 쉽게 이해할수 있는것 같습니다. ^^