통계의 기초
1. 통 계
집단 현상에 대한 수집된 자료를 정리하여 그 자료가 나타내고 있는 의미를 항목별로 어떤 수치로서 표시하고 분석해서 설명하는 것이다.
2. 통계학(statistics)
과학적인 이론에 근거하여 연구 목적에 필요한 자료를 최적한 방법으로 수집하고 과학적인 이론에 의하여 정리, 분석하는 방법을 제시해 주는 학문이다.
현대 사회에서 통계학은 인문, 사회, 자연과학에 모두 이용되고 있으며, 또 그 중요성이 강조되고 있다. 그 이유는 통계적 방법의 과학성이다. 통계학에서는 막연한 추측이나 의사결정을 허용하지 않는다. 과학적인 이론에 근거하여 우리의 관심사에 대한 정확한 대상이 선정되어야 하며, 연구목적에 필요한 자료와 정보가 경제성과 정밀도를 고려하여 최적한 방법으로 수집되고, 수집된 자료는 과학적 이론에 의하여 정리, 분석되어야 한다. 이러한 방법을 제시해 주는 것이 바로 통계학이다.
3. 통계학의 종류
(1) 기술 통계학(descriptive statistics)
통계 자료를 수집, 정리하여 표나 그래프를 사용해서 표현하고, 자료를 요약하여 대표값이나 산포도와 같은 자료의전반적인 특성을 수량화해서 나타내는 방법을 다루는 분야이다.
<예> 합계, 평균, 분산, 상관계수, 교통사고계수, 운동선구 기록 등
(2) 추측 통계학(inferential statistics)
불확실성이 내포된 상황 아래서 올바른 의사결정을 하기 위해 주어진 자료를 분석하여 현재의 상태를 파악하거나 미래의 현상을 예측하는데 도움을 주는 통계적 추론을 다루는 분야이다. 이는 확률론이 바탕이 된다.
<예> 모집단, 표본, 모수, 표본통계량, 추정, 가설검정 등
4. 모집단과 표본
(1) 모집단
연구조사의 대상이 되는 전체집단을 모집단(population)이라고 정의한다.
가령, ○○지역 주민의 교육만족도 조사연구의 주제로 만족도를 알아보기 위해 200명을 선정하여 연구조사를 실시 한다고 할 때, 모집단은 ○○지역 주민 전체가 되며, 표본은 이들 중 선출된 200명이 된다. 모집단은 연구조사의 목적과 주제에 따라 그 대상을 달리한다.
(2) 표 본
일반적으로 연구조사는 모집단 전체를 대상으로 진행할 수 없기 때문에 모집단의 일부만을 뽑아 조사를 실시한다. 모집단의 성격과 특징을 파악하기 위해서 모집단의 일부만 추출한 것을 표본이라고 하는데, 표본의 크기는 여론조사의 목적과 연구조사 담당자의 판단, 예산 등에 따라서 달라질 수 있다.
표본의 크기가 무조건 크다고 해서 조사에 신뢰성이 있는 것은 아니며, 조사의 신뢰성은 표본의 크기보다는 표본 추출의 대표성에 있다.
(3) 표본오차
모집단에서 추출한 표본이 모집단의 특성과 일치하지 않아서 생기는 확률의 차이를 표본오차(Sampling Error) 또는 표집오차라고 한다. 즉, ‘95% 신뢰수준, 표본오차 ± 3%’ 라는 의미는 표본 추출을 하여 연구조사를 실시한 결과의 오차 범위가 -3% ~+3% 사이에 존재한다는 것을 의미한다.
가령 우리 매스컴을 통해 쉽게 접할 수 있는 예로, 대통령 후보의 지지율 여론 조사에서 모 후보의 지지율이 ‘95% 신뢰수준,표본오차 ± 3% 범위에서 26.5%로 조사 됐다면 실제 지지율은 23.5~29.5% 사이에 나타날 수 있다는 말이며, 이러한 결과는 95% 정도는 믿을 수 있고, 5% 수준에서 틀릴 가능성이 있다는 뜻이다.
(4) 표본 분포
통계조사의 목적은 모집단에 대한 정보를 알아내는 것이다. 여기서 모집단에 대한 정보란, 많은 경우에 모집단의 평균 또는 모집단의 분산과 같은 모집단의 특성 값을 말한다. 이러한 모집단의 특성 값을 모수 (parameter)라 한다.
모집단의 특성 값은 모집단 전체를 조사하여야만 알 수 있다. 그러나 대부분의 연구에서는 모집단 전체를 조사한다는 것은 불가능하기 때문에 일반적으로 모수는 미지로 남게 된다. 이러한 경우, 모집단으로부터 표본을 뽑고 표본으로부터 계산되는 표본의 평균 또는 표본의 분산과 같은 표본의 특성값, 즉 통계량을 이용하여 모수를 추정하게 된다. 예를 들어. 100명의 표본을 여러 번 뽑을 때 각각의 표본은 그 분산이 달라지게 되며 이로부터 표본 분산의 분포가 얻어지게 되는 것이다.
일반적으로 모수의 추정에 사용되는 표본의 특성값인 통계량은 어떤 표본이 뽑히느냐에 따라 그 값이 달라지고 그 값에 의해 하나의 분포를 이루게 된다. 이때 통계량의 분포를 표본 분포(sampling distributoin)라고 부른다.
(5) 표본 추출(sampling)
1)단순임의 추출(simple random sampling)
N개의 요소들로 이루어진 모집단으로부터 n개의 요소 (크기가 n인 표본)을 추출하 는 방법으로서 모든 (N n)개의 표본들이 추출되어질 확률은 1/(N n)이다.
2)충화 추출(stratified random sampling)
동질성이 있는 것끼리 묶는 것으로 분산을 줄일 수 있다.
모집단 내의 모든 요소는 어느 한 부모집단에 포함되어야 한다.
층을 나누는 일반적인 IDEA는 각 층에 가능한 한 동질의 요소들을 묶어 놓는다.
예를 들어, 전국 가구의 소득을 조사한다고 하자, 이럴 경우 도시와 농촌이라는 층을 나눈다. 즉, 동질성이 있는 것끼리 묶는 것이다. 또한 모든 집단의 요소는 도시 또는 농촌에 반드시 포함되어야 한다.
3)집락추출 (clustet sampling)
최소의 비용으로 정해진 정보를 얻는데 적절한 조사방법이다.
이 방법은 모집단에 대한 추출들을 만들기는 어려우나 집락의 추출들은 만들기 쉬운 경우에 적절하다. 예를 들어, 서울시민의 소득에 관한 조사를 할 경우 추출들이 사실 상 불가능하나 각 동에서의 세대별 추출들은 구하기 용이하다.
그래서 각 동별로 집락을 형성한다. 또한 관측치를 얻기 위한 비용이 요소들이 분산 되어 있어서 증가하는 경우에 적절하다. 예를 들어, 위의 서울 시민의 소득에 대한 조사에서 개인의 LIST를 뽑는 것보다 각 동의 LIST를 뽑는 게 비용이 적게 든다.
4) 계통추출
모집단 N을 모를 때 적절한 간격을 설정하고 요소를 추출한다. 예를 들어 , 연말 연 시 백화점의 매상고를 알아보려고 한다. 이때 입구에서 매 100번째 사람을 추출하는 것이다.