표본오차를 구하는 수학적 공식만 보면 표본오차는 오로지 표본수와 신뢰수준에 의해 결정됩니다.
다음 세 가지로 말씀을 드립니다.
1) 여론조사를 해석할 때 꼭 명심해야 할 것은 모든 표본조사에는 신뢰수준과 표본 허용오차가 있습니다. 신뢰수준은 여론조사 결과가 어느 정도의 신빙성을 가지고 있는가를 수치로 나타낸 것입니다. 가령 신뢰수준 95%라는 조사결과 나오면 같은 조사를 100번 실행했을 때 95번의 같은 결과가 나오는 것을 신뢰수준 95% 라고 하는 것입니다.
허용오차는, 똑같은 표본추출 과정을 거쳐 동일한 면접원, 동일한 질문지를 사용한다고 가정할 때, 같은 시간에, 100번 조사할 경우 95번은 그 범위 내에서 같은 결과(응답률)를 얻을 수 있는 허용한계를 나타냅니다. 가령 어떤 설문조사에서 응답률 95%에 +-2.0%포인트의 허용오차가 나왔다면 똑같은 조사를 100번 하더라도 그 중 95번에서 신뢰한다는 의견의 %수치가 93~96%정도 된다고 해석하면 되겠습니다.
2) 신뢰도(신뢰수준)와 정확도(오차) - 인터넷 자료 중에서
일반인들이 흔히 접하는 통계 중 학교에서 배우는 통계와 가장 접근한 것이 여론조사의 신뢰구간 추정일 것입니다. 그러나 일반인은 물론 당연하지만 통계학을 전공하는 사람조차 신뢰도와 정확도가 의미하는 뜻을 잘 모르는 것 같습니다. 여기서 우리가 일상적으로 쓰는 말을 통해 신뢰도와 정확도의 뜻을 알아보겠습니다.
광고 문구를 쓰는 사람들을 카피라이터(copywriter)라 하지요. 카피라이터가 광고 문구를 생각할 때도 문구의 다양한 특징(attributes, characteristic)들을 생각합니다.
[“문구가 간결한가?], [사람들의 의표를 찌르는가], [강력한 인상을 주는가?] 등등.. 이런 식으로 우리가 쓰는 말에도 다양한 특징들이 있습니다.
통계학에서 보고자 하는 것은 말의 특징은 [신뢰도]와 [정확도]입니다. A를 우리가 주장하고자 하는 명제라 합시다. 그러면 그 명제의 신뢰도와 정확도는 다음과 같이 정의됩니다.
신뢰도: 주장 A가 맞을 확률
정확도: 주장 A의 구체성
아직도 무슨 말이지 잘 이해가 되지 않는다고요? 그러면 다음의 예를 봅시다.
보기1)
100m 떨어진 곳에 어떤 물체가 보입니다. 이때 아래의 주장들을 비교해 봅시다.
S1: 저건 사람이다.
S2: 저 사람은 여자이다
S3: 저 사람은 할머니이다.
이 상황에서 3개의 주장(명제)중 맞을 확률이 높은 명제는 무엇일까요? 당연히 S1이지요. 반면에 물체에 대한 S1의 묘사는 가장 불투명하고 S3가 가장 구체적입니다.
그래서 신뢰도는 S1이 가장 높고 정확도는 S3이 가장 높습니다. 즉,
신뢰도: S1 > S2 > S3
정확도: S1 < S2 < S3
입니다.
보기 2)
또 다른 예를 들어 볼까요. 어떤 사람의 키에 대해서 우리가 이야기 한다고 생각해 봅시다.
S1: 저 사람 키는 150 cm 이상이다.
S2: 저 사람 키는 170 cm 이상이다.
S3: 저 사람 키는 190 cm 이상이다.
여기서 어떤 주장이 신뢰도가 가장 높을까요? 당연히 S1입니다. 반면에 정확도는 S3가 가장 높고 S1이 가장 낮습니다.
보기1)과 보기2)에서 보듯이 이 [신뢰도]와 [정확도]는 상충관계(trade-off)입니다. 즉, 신뢰도를 높이려면 정확도는 어느 정도 희생하는 수밖에 없습니다. 정확도를 높이려면 신뢰도를 희생할 수밖에 없고요.
그러면 정확도와 신뢰도를 동시에 높이는 방법이 없을까요? 통계학에서는 표본 크기를 크게 하면 됩니다. 그러나 이 경우 시간과 돈이 문제가 되겠지요.
그러면 신뢰구간 추정에서 이야기는 주장(명제)는 어떤 것일까요?
통계학에서 이야기하는 주장은 모수 θ에 관한 것입니다.
여론조사의 경우 [모집단의 지지도 p]에 관한 주장(명제)입니다. 그러면 신문에서 흔히 보는 신뢰도 95%하에서 지지도 30% 그리고 표본오차 2.5% 라 가정합시다.
정확하게 이야기하면 표본오차가 아니고 [1.96*표준오차]입니다. 신문 방송에서 가끔 표본오차라는 말을 사용하는데 표준 편차라는 말은 있어도 이런 용어는 통계학에 없습니다.
또 최대 허용 오차라는 말도 사용하는데 좀 더 정확하게 표현하면 <1.96*최대 허용 오차>가 더 적합한 표현입니다.
신문에 나오는 이 표현은 도대체 무얼까요?
여기서 지지도 30% 는 표본의 지지도를 이야기합니다. 즉 r=0.3이라는 이야기이죠.
그래서 Pr(0.3-0.025 < 모집단의 지지도(P) < 0.3+0.025 이다)=0.95 가 됩니다.
만약에 95% 신뢰도를 99%까지 올려서 이야기 하고 싶다면 어떻게 될까요? 당연히 정확도가 떨어져 모집단의 지지도 p에 관한 진술을 좀 더 넉넉하게 잡고 이야기해야 합니다.
그래서 예를 들면
Pr(0.3-0.035< 모집단의 지지도(P) < 0.3+0.035 이다)=0.99가 되는 것이죠. 신뢰도를 자꾸 높일수록 정확도가 떨어져서 사실 쓸모가 없어져 버립니다.
3) 이를 공식적으로 간단히 이해하고 싶으시면,
표준오차 = ±( Z )[(표준편차)/ ( 표본크기 )]½
< 표준편차 = [ (응답비율)( 1 - 응답비율)]½ >
< Z = 1.96 : 신뢰수준 95%, 2.58 : 신뢰수준 99% >
**** 신뢰수준이 올라갈수록 Z값이 크므로 오차는 커진다고 볼 수 있습니다.