통계학의 이해를 돕기위한 이항분포와 정규분포에 관한 설명입니다. 보시고 큰 도움이 되었으면 합니다.
이항분포와 정규분포
확률변수에는 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)가 있다. 확률변수가 취할 수 있는 값의 개수가 유한적이면 이산확률변수, 무한적이면 연속확률변수라고 한다. 이산확률변수의 분포를 이산확률분포라고 하고 그 대표적인 것이 이항분포이며, 연속확률변수의 분포를 연속확률분포라고 하고 그 대표적인 것이 정규분포이다.
확률분포에서 대표적인 것은 이항분포와 정규분포이다. 이항분포와 정규분포는 우리 일상생활에서 또는 사회과학 연구에서 가장 많이 사용되는 분포의 모양이기 때문에 이들의 특성을 이해하는 것은 매우 중요한 것이라고 생각된다. 이들 분포 외에도 많은 다른 확률분포가 있는데 , t-분포, F-분포, -분포 등이 그것들이다.
1. 이항분포
이항분포(binomial distribution)는 1700년대 스위스 수학자들 특히 야코프 베르누이(Jacob Bernoulli 1654-1705)의 확률에 관한 연구에서 그 기원을 찾을 수 있다. 이러한 이유로 해서 두 가지 결과와 관련된 실험을 하는 것을 베르누이 시행(Bernoulli trial)이라고 한다. 야코프는 자신이 만든 대수의 법칙을 증명하기 위해 3,000개의 하얀 구슬과 2,000개의 까만 구슬로 채워진 단지를 가정했다. 이는 후에 확률이론가와 수학 퍼즐의 창안자들이 가장 선호하는 장치가 되었다. 그는 우리가 각 색깔의 구슬이 얼마씩 들어 있는지 몰라야 한다고 규정했다. 단지로부터 구슬을 꺼내고 그 색깔을 기록한 다음 단지에 다시 넣는 행위를 반복하는 것이 이 실험의 방법이다. 구슬을 꺼내는 횟수가 거듭됨에 따라 색깔의 비율이 3 : 2 라는 강한 확신(moral certainty: 절대적인 확신이라기보다는 실용적인 문제로서의 확신)을 줄 수 있다고 야코프는 주장했다. “대수의 법칙이 우리에게 말해주는 전부는, <많이 던지는 횟수>의 평균이 <적게 던지는 횟수>의 평균보다 어떤 정해진 수치보다 더 적은 정도로 진짜 평균과 차이가 날 것 같다는 것뿐이다.”
1) 이항실험과 이항분포
동전을 던지는 실험을 해보자(동전의 앞면을 H, 뒷면을 T라고 표시하자). 동전을 한번 던졌을 때 기대할 수 있는 결과는 앞면 아니면 뒷면뿐이며, 각각 1/2의 확률을 갖고 있다. 어떤 초등학교 학생의 2/5가 여자라고 하면, 한 학생의 옆자리에 앉을 학생이 누구인지는 모르지만 여학생이 앉을 가능성이 2/5이고 그렇지 않을 가능성은 3/5이다.
우리의 주변에는 그와 같은 두가지의 가능성을 가지고 발생하는 사건들이 아주 많은데, 이것이 이항실험과 이항분포이론의 기초가 된다.
두가지 이상의 결과가 발생하는 사건도 필요에 따라 두가지 범주로 나눔으로써 이항분포의 분석대상에 포함시킬 수 있다. 예를 들면, 주사위를 한번 던졌을 경우의 결과는 6가지의 가능성을 갖고 있지만, 1이 나올 가능성(1/6)과 기타 숫자가 나올 가능성(5/6)으로 양분할 수 있다.
이항실험의 결과로 한 사상이 일어나는 횟수를 확률변수라고 하면, 이 확률변수는 특정한 확률분포를 갖게 되는데, 이러한 분포를 이항분포(binomial distribution)라고 한다.
2) 이항분포의 확률계산
확률분포의 모양을 알기 위하여 앞 절의 방법을 사용할 수 있으나, n이 커지면 그런 방법으로 확률을 계산하고 분포의 모양을 알아내는 것은 대단히 복잡하며 때로는 불가능하다.
이항분포는 다른 확률분포와 마찬가지로 사전적이며 선험적인 분포이다. 수많은 이항실험을 해보지 않더라도 시행횟수 n과 성공의 확률 p값만 알고 있으면 그 분포의 모양을 알 수 있다. 이항분포의 계산방법을 다음 두가지로 설명하여 보자.
(1) 이항식의 이용
확률변수 X에 대한 확률을 구하는 식은 다음과 같다.
여기에서,
x:성공횟수
p:성공확률
n:시행횟수
1-p=q:실패확률
이항식의 각 항에 해당되는 값을 대입하여 얻은 각 수치가 이항변수 X의 확률값이 된다.
<예> 동전을 3번 던졌을 때 앞면이 나오는 횟수의 확률은 얼마인가?
(2) 이항확률분포의 이용
이항식을 이용할 경우 n이 커지고 p의 값이 소수점 이하의 단위가 증가할수록 계산이 복잡해진다. 이러한 경우에는 이항분포표를 이용하면 편리하다.
이항분포표에서는 p는 성공확률, n은 시행횟수, x는 성공횟수를 나타내고 있다. 예를 들어서, 동전을 세 번 던져서 두 개의 앞면이 나올 확률은 이항분포표에서 0.3750이라는 것을 알 수 있다.
2. 정규분포
정규분포(normal distribution)는 1733년에 프랑스의 모아브르(Abraham De Moivre)에 의하여 발견되었다. 모아브르는 무작위적이고 무관해 보이는 관찰이 횟수가 증가할수록 질서정연한 모습을 갖춘다는 사실에 감명 받았다. 그러한 질서정연함이 전능자의 계획에 속하는 것으로 생각할 정도였다. 이는 공정한 조건 아래에서라면 측정을 통해 불확실성을 정복하고 리스크를 길들일 수 있다는 자신감을 반영하는 것이기도 하다.
정규분포는 19세기의 가장 위대한 수학자 카를 프리드리히 가우스(Carl Friedrich Gauss)에 의해 물리학과 천문학, 측지학 등에 폭 넓게 응용되었기 때문에 정규분포를 가우스분포(Gaussian distribution)라고 부르기도 한다. 가우스가 발전시킨 구조가 없었다면 우리에게는 직면한 리스크를 평가하고, 리스크를 감당해야 할지 말아야 할지를 결정할 체계적인 방법이 전무했을 것이다. 확률을 평가하는 과정은 종형 곡선에서부터 시작된다. 그 주요 목적은 정확성을 표시하려는 것이 아니라 오류를 표시하기 위한 것이다.
갤턴은 정규분포에 대해 다음과 같은 말을 했다. “오류 빈도의 법칙(Law of Frequecy of Error)은 가장 거친 혼돈 가운데서도 조용하게, 그리고 완벽하게 겸손한 모습으로 나타난다. 무리의 수가 많으면 많을수록 그 것의 통치력은 완벽해진다. 그것이 바로 <무질서의 대법칙>이다. 무질서한 요소를 광범위하게 표본추출해보면 거기에는 언제나 의심할 수 없는, 그리고 가장 아름다운 질서의 모습이 숨겨져 있다.”