|
표본의 추출
모집단을 모두 조사하고 분석하고 싶어도 연구자의 시간적․경제적 제약으로 인해 모집단 전체를 연구할 수 없을 때가 많다. 예를 들어 우리나라 성인의 평균키를 조사하려고 할 때 모든 성인의 키를 다 조사할 수는 없다. 표본을 연령별․성별 등으로 조화있게 뽑아서 그 표본을 대상으로 우리나라 성인 전체의 평균키를 알아보는 것이 보통이다. 그렇다면 모집단 전체를 대상으로 조사했을 때와 표본을 대상으로 조사했을 때의 평균키는 동일하게 나타날까? 대부분의 경우 비슷하기는 해도 정확히 일치하지는 않을 것이다.
그러나 통계학의 여러 연구방법은 모집단 전체를 조사하지 않고도 모집단의 특성을 추론할 수 있도록 도와주고 있다. 즉, 통계학의 여러 이론을 적용하여 모집단의 일부인 표본을 분석함으로써 시간과 경비를 절약하면서도 모집단의 특성을 유추해서 충분히 분석할 수가 있는 것이다. 이와 같은 통계학을 추리통계학(inferential statistics)이라고 한다. 이 추리통계학은 표본의 특성을 기초로 하여 모집단의 특성을 규명하는 학문이다. 이러한 통계적 연구에서 실시되는 첫 번째 단계가 바로 표본의 추출이다.
표본연구의 필요성
표본에 의존하여 모집단의 특성을 분석한다면 오차가 생길 수밖에 없다. 모집단의 특성과 표본을 대상으로 조사한 특성은 반드시 일치하지는 않기 때문이다. 이처럼 오차가 발생하는데도 불구하고 표본을 사용하는 이유는 다음과 같다.
경제성
모집단 전체를 조사하는 것보다 일부분인 표본을 관찰하는 것이 시간상 혹은 경비상으로 절약이 된다. 방송국에서 내년도 프로그램개편을 위해 청취자의 의견을 듣고 싶다고 해서 전체청취자의 의견을 다 들을 수는 없으며, 만약에 그렇게 한다면 엄청한 시간과 비용을 지불하게 될 것이다.
시간의 제약
짧은 시간내에 필요한 정보를 얻어야 할 때에도 표본을 사용한다. 예를 들어 한 선거구에서 출마한 여러 후보자들의 인기도를 조사한다고 하자. 투표 직전까지 유권자들의 생각이 바뀔 수도 있는데, 전체유권자의 의견을 다 물으려고 한다면 조사 도중에 먼저 조사한 유권자의 의견이 바뀔 수도 있고, 극단적으로는 실제 투표가 다 끝나버려 조사내용이 쓸모없게 될 수도 있을 것이다. 의견조사는 가장 짧은 시간내에 현재의 상태를 관찰할 수 있어야 하기 때문에 표본을 사용하는 것이 유용하다.
무한모집단
모집단이 무한히 큰 경우에는 모집단 전체의 조사가 불가능하다. 예를 들어 H제과에서는 고객들이 이 회사의 껌을 어떻게 평가하는지 알고 싶어한다. 그러나 고객의 수는 현재에도 엄청나게 많으며 앞으로도 매일 수없이 늘어날 것이기 때문에 미래의 고객까지 고려한다면 그 수는 무한하다고 할 수 있다. 이렇게 무한모집단일 때에는 전체를 조사한다는 것이 불가능하므로 표본을 뽑아 조사할 수밖에 없다.
조사가 불가능한 모집단
모집단 전체를 조사한다는 것이 불가능한 경우도 있다. 예를 들어 졸업생들이 얼마나 모교에 관심을 갖고 있는가를 알려고 할 때, 이들 졸업생 중에는 사망한 사람도 있고 주소가 분명치 않은 사람도 있으므로 전체를 조사하는 것은 불가능하다. 증권을 소유하고 있는 사람들의 수입이나 교육수준을 조사하려고 할 때에도 주주명부에 그 사람들의 주소나 성명 등이 명확히 기재되어 있지 않을 수도 있어서 필요한 정보를 모두 조사한다는 것은 불가능하다. 그러므로 조사가 가능한 사람만을 표본으로 뽑아 조사하게 된다.
정확성
표본을 조사하는 것이 모집단 전체를 관찰하는 것보다 더 정확할 수도 있다. 많은 수를 관찰할 때에는 정확성이 결여되기 쉽지만 적은 수의 표본을 관찰할 때에는 좀더 조심스럽고 세밀하게 관찰하게 된다. 예를 들어 동일한 비용과 시간을 가지고 한 의약품의 효력을 조사할 때, 많은 환자에게 복용케하여 그 반응을 수집․조사한다면 피상적인 결과밖에 알 수 없지만, 몇 명의 환자의 반응만을 세밀하게 관찰하면 반응의 과정, 상태를 자세히 할 수 있을 것이다.
그 밖의 이유
때때로 대상을 조사하는 행위 자체가 대상의 성격과 형질을 변형시킬 수도 있기 때문에 표본조사를 한다. 어느 전자회사는 매월 20만 개의 부품을 하청회사로부터 공급받는데, 이 부품의 품질을 조사하려면 완전히 분해하여야 하므로 다시 사용할 수 없게 된다고 한다. 그러므로 이러한 경우에는 임의로 표본(sample)을 추출하여 모집단의 품질수준을 측정하는 방법을 사용하여야 한다.
표본추출오차와 비표본추출오차
어느 모집단으로부터 표본을 뽑았을 때, 그 표본으로부터 얻은 특성은 모집단을 전부 조사하여 얻은 특성과는 차이가 있을 수 있다. 즉, 측정상의 오차, 표본추출의 오류, 해석상의 잘못 등으로 인하여 표본을 대상으로 조사한 결과는 실제 모집단의 값으로부터 멀어지게 된다. 표본을 이용하여 모집단의 성격을 추정한다는 것은 그 자체가 이미 오류의 가능성을 포함하고 있는 것이다. 중요한 것은 이러한 오차의 원인과 오차의 정도를 정확히 규명하고, 그것을 최소한으로 줄이려는 노력이라고 할 수 있다.
통계적 연구에서 일어날 수 있는 오류를 몇 개의 예를 통해서 살펴보자.
【예1】어느 고등학교에서는 1학년 신입생들의 IQ를 알아보기 위하여 임의로 4명을 선정하여 조사하였다. 그 결과 평균 124라는 결론을 얻어 다른 학교에 비해 매우 높은 수준이라고 단정하였다. 그러나 사실 신입생 700명 전체의 IQ평균은 98에 지나지 않았다.
【예2】1936년 리터러리 다이제스트(Literary Digest)잡지사는 미국 대통령 후보인 민주당의 프랭클린 루스벨트(F.D. Roosevelt)와 공화당의 알프레드 랜든(A.M. Landon)의 선거결과를 예측하였다. 다이제스트사는 수백만이나 되는 대규모 표본을 뽑아 유권자의 반응을 조사한 결과를 토대로 랜든의 압도적인 승리를 예상․발표하였다. 그러나 선거결과 미국 역사상 손꼽힐 만큼의 큰 차이로 루스벨트가 당선되었다.
【예3】어느 중학교에서 3학년 학생들의 신체검사를 실시하였다. 검사를 끝마친 후 체중에 대한 자료에서 이상한 점이 발견되었다. 총 6개 학급의 평균체중이 각각 37, 39, 38.5, 38, 49, 50.5kg으로서 마지막 두 개 학급의 평균이 다른 학급에 비하여 월등히 높은 상태에 있었다. 사실을 알아본 결과, 검사시간이 부족하여 마지막 두 개 학급은 장소를 옮겨 오랫동안 쓰지 않던 다른 저울로 체중을 측정하였다고 한다.
위의 세가지 예는 우리가 흔히 볼 수 있는 통계연구의 오류이다. 첫 번째의 예에서는 너무 적은 표본을 뽑았기 때문에 오차가 발생하였다. 이러한 오차는 표본을 크게 할수록 점차 감소하게 된다. 두 번째 예는 표본추출의 계획이 잘못되어 빚어진 오류이다. 다이제스트사는 표본의 대상을 선정하기 위하여 다이제스트사의 독자와 전화번호부의 명단을 이용하였다고 한다. 1930년의 경제공황 이후 경제사정이 극히 악화되었던 점을 고려한다면 조사대상이 된 유권자들은 정기적으로 잡지를 구독할 수 있었고, 전화시설을 갖춘 부유층에 속하고 있었음을 알 수 있다. 그 당시 대부분의 부유층은 공화당을 지지하고 있었으므로 이 조사는 표본추출계획에서 이미 오류의 가능성을 안고 있었다. 세 번째의 예에서 발생한 문제점은 여러 가지 원인을 가정해 볼 수도 있겠으나 가장 중요한 오류의 원인은 저울의 정확도라고 할 수 있다. 또한 측정하는 사람의 측정방법에 의해서 오류가 발생할 수도 있다.
예1과 예2의 오차를 표본추출의 오차라 하고, 표본추출에서 오는 것이 아닌 다른 오류, 즉 예3과 같은 측정상의 오차는 비표본추출오차라고 한다.
표본추출오차
예1과 예2는 표본추출오차(sampling error)를 단적으로 표현하고 있다. 먼저 예1은 우연히 IQ가 높은 4명을 선택한 경우이다. 우연에 의한 오류는 표본의 수를 증가시킴으로써 자연히 해소된다. 4명의 학생을 대상으로 하지 않고 20,30,40명으로 표본을 늘림으로써 어느 정도 오차를 감소시킬 수 있다. 그 이유는 예외적인 구성원이 우연히 포함된다고 하여도, 표본이 크면 전체적으로 볼 때 그 영향이 적어지기 때문이다. 그러나 표본의 크기를 크게 하면 우연에 의한 오차는 적어지지만, 그 대산 표본을 뽑는 가장 큰 이유인 경제성이 낮아진다. 표본의 크기를 얼마로 정해야 되는가는 모집단의 성격과 연구자가 감당할 수 있다고 생각되는 오차의 한도에 따라 결정할 수 있다.
표본추출오차란 모집단을 대표할 수 있는 전형적인 구성요소를 표본으로 선택하지 못했
기 때문에 발생하는 오류이다. 표본추출상의 오류는 두 가지 요인에서 발생하게 되는데,
하나는 표본의 크기 때문에 생기는 우연에 의한 오류이고, 다른 하나는 모집단을 대표
할 수 없는 비전형적인 구성요소를 표본으로 뽑았기 때문에 일어나는 오류이다.
예2에서 나타난 표본추출상의 오류는 편의(bias) 때문에 발생한다. 표본추출의 편의(sampling bias)란 표본을 추출할 때 모집단의 구성원 중에서 특수한 성격을 가지고 있는 구성원을 선호하는 경향을 말하는 것으로서, 표본의 크기를 늘린다고 해도 편의 때문에 발생하는 표본추출오차는 줄어들지 않는다. 이러한 편의는 표본추출과정에서 연구자의 고의적이고 의식적인 행동에 의해 발생할 수도 있으나, 대체로 표본추출의 계획이 불완전하기 때문에 일어난다. 표본추출에서 편의를 어떻게 제거할 것인가는 통계학의 중요한 관심거리이다. 편의를 없애기 위하여 여러 가지 방법으로 표본추출에 대한 계획을 세워 실천하려고 하지만 이를 완전히 제거한다는 것은 불가능하다. 그러나, 보다 과학적이면서 가능한 한 편의를 적게 하는 표본추출방법을 설명하겠다.
비표본추출오차
표본의 선택방법과는 관계없이 오차가 발생하기도 하는데, 이러한 오류를 비표본추출오차(non-sampling error)라 한다. 이 오차는 표본선택이 잘못된 것이 아니라 주로 표본의 성격을 측정하는 방법이 부정확하기 때문에 발생하는 경우가 많은데, 이러한 측정오차(mesurement error)가 비표본추출오차의 주류를 이루고 있다. 이와 같은 오차는 표본의 수를 늘린다거나, 모집단 전체를 연구대상으로 하거나, 표본추출계획을 면밀하게 수립하여도 감소되지 않는다.
예를 들어 한 사람에게 두 사람이 같은 질문을 하였지만, 서로 다른 대답을 얻는 경우가 있다. 이 때에는 질문하는 사람의 질문방법, 설명부족 등이 그 원인이 된다. 설문지를 통해 개개인의 특성 및 태도를 조사․분석할 때에도 연구에 따라 설문지의 결과에 차이가 발생하는 경우가 많은데, 여기에는 설문지에 대답하는 사람의 개인적인 반응양식이 작용하기 때문이다.
연구가 어떤 목적에 사용되는가를 조사대상자에게 알리는 것이 오히려 부정확한 반응을 불러일으킬 수도 있다. 생활수준을 알기 위해 학생들에게 보호자의 월수입을 물을 때에는 조금 과장하여 대답할 가능성이 있으며, 장학금대상자를 선발하기 위하여 질문을 할 때에는 실제보다 낮은 수준으로 대답할 가능성도 있다.
표본추출방법
앞에서 설명한 바와 같이 오차의 종류에는 표본추출오차와 비표본추출오차가 있다. 표본추출의 오차는 편의(bias)와 우연성(chance)에 의하여 발생되는데, 우연에 의한 오차는 표본의 크기를 증가시킴으로써 감소시킬 수 있다. 편의에 의한 오차는 표본추출방법을 과학적으로 계획함으로써 줄일 수 있는데, 많이 이용되는 과학적 표본추출방법들을 열거하면 다음과 같다.
확률표본추출
확률표본추출(probability sampling)이란 모집단에 속해 있는 각 구성원이 표본으로 선택될 가능성이 일정하게 되도록 하는 표본추출방법이다. 100명의 학생 중에서 아무런 편견없이 한 사람을 무작위로 추출한다면 100명 모두에게 기회는 동일하게 주어지는 셈이다. 이러한 확률표본추출을 무작위추출(random sampling)이라고도 한다.
확률표본추출의 방법은 대단히 다양하지만 가장 많이 쓰이는 방법으로 다음을 소개한다.
단순무작위추출(simple random sampling)
단순무작위추출이란 난수표를 사용하거나 기타의 방법을 동원하여 모집단에 포함되어 있는 모든 구성원이 뽑힐 확률을 각각 같도록 하는 추출방법을 말한다. 이는 모집단의 모든 구성원의 성격이 서로 비슷하고, 분석도 단일성격에 대한 것일 때 더욱 효과적이다.
층화추출(stratified sampling)
층화추출은 표본을 뽑기 전에 모집단을 성격에 따라 여러 집단 또는 여러 층으로 분류한 다음 각 층에서 표본을 추출하는 방법이다. 예를 들어 종교의 분포를 파악하려는 경우에 전체모집단을 연령별, 성별, 지역별로 구분한 다음, 각 집단별로 무작위추출을 하게 된다. 각 층에서의 표본의 사례수, 즉 표본크기를 정할 때 모집단에서 각 층이 차지하는 구성비율을 고려할 수도 있는데, 이러한 경우는 비례적 층화추출이라고 한다.
군집추출(cluster sampling)
군집추출은 표본을 뽑을 때 직접 개별적인 구성원을 선택하는 것이 아니라 자연적 또는 인위적인 집단을 먼저 뽑고, 그 집단 중에서 필요한 만큼의 표본을 추출하는 경우를 말한다. 서울시내 초등학교 5학년 학생들의 평균지능을 알기 원할 때 개별적인 학생을 구성원으로 삼는 것이 아니라, 학교단위 또는 학급단위를 구성원으로 간주하여 그 중에서 무작위로 몇 개의 학교를 뽑거나 몇 개의 학급들을 뽑는 방법을 말한다.
체계적 추출(systematic sampling)
체계적 추출은 하나의 모집단배열이 무작위로 되어 있을 때 체계적 수단을 동원하여 추출하는 방법이다. 어느 잡지사가 구독자의 의견을 묻고 싶을 때, 구독자카드에 번호를 붙인 다음, 매 10번째 또는 매 100번째 구독자를 표본으로 하여 질문을 할 수 있는데, 이러한 방법을 체계적 추출방법이라 한다.
비확률적 추출
비확률적 추출은 확률추출(무작위추출)이 불가능하거나 비경제적일 경우에 사용되는데, 연구자가 모집단과 비슷하다고 생각되는 표본을 임의로 추출해 내는 방법을 말한다. 비확률적 추출은 연구자의 주관에 의해 표본이 선택되므로 오차에 대한 분석이 불가능하게 된다. 비확률적 추출은 편의추출과 판단추출로 구분할 수 있다.
편의추출(convenience sampling)
편의추출은 모집단에서 연구자가 가장 손쉽게 구할 수 있는 구성원을 선택하여 표본으로 삼는 표본추출방법이다. 어떤 수업방법의 효율성을 알아보기 위하여 직접 중학교 학생들에게 그 방법을 실험하려고 할 때 연구자의 모교를 선택하여 실험한다면 학교에서 많은 협조를 얻어 순조롭게 연구를 진행할 수 있을 것이다. 그러나 이 방법에 의한 표본추출결과는 표본추출오차가 크고 그 결과를 일반화하기에는 설득력이 약하나, 연구목적이 모집단의 성격을 개략적으로 알아보기 위한 것일 때는 사용될 수 있다. 이 방법은 시간이나 비용면에서 가장 경제적인 방법이다.
판단추출(judgement sampling)
판단추출은 모집단의 성격에 대하여 어느 정도 전문지식이 있는 사람이, 그가 판단하기에 가장 효과적이라고 생각되는 표본을 찾는 방법이다. 특히 모집단의 성격이 매우 이질적이거나, 여러 가지 사정으로 인하여 표본의 수가 적을 때 효과적으로 사용된다. 물가의 변동을 대표하는 소비자물가지수, 도매물가지수 등은 판단추출방법에 의해 산정된다. 물가지수를 계산할 때 전문가들의 의견을 종합하여, 모집단을 이루는 수많은 상품 중에서 몇 개의 품목만으로 표본으로 삼아 계산하는 것이다. 판단추출방법에 의하면 오차가 일어날 가능성이 크지만 모집단의 성격에 대한 전문적인 지식이 있는 경우에는 효과적일 수도 있다.
|