확률 파트의 독립시행의 확률이란 소단원에서 독립시행에서의 특정사건이 일어나는 횟수(=확률변수)에 대한 확률을 구하는 방법을 배웠다.
이항분포는 독립시행 시 각 변수 값에 대한 확률의 분포양상 즉, 독립시행의 결과로서 나타나는 확률분포를 뜻한다.
그렇기 때문에 어떤 이항분포의 성질을 표현하기 위해 꼭 필요한 정보는 시행한 횟수와 각 시행에서 사건이 일어날 확률일 수 밖에 없다.
n회의 독립시행에서 A사건이 일어난 횟수를 X라 하고 각 시행에서 A사건이 일어날 확률이 p일 때
확률변수 X는 시행횟수가 n, 일어날 확률이 p인 이항분포를 따르며 기호로 X~ B(n,p)와 같이 표현한다.
이제 이항분포의 특징 즉, 이항분포를 따르는 확률변수 X의 평균, 분산, 표준편차를 알아보자.
중학교에서 평균을 구할 때 두가지 방법을 배웠을 것이다.
첫번째는 변량의 총합을 전체 도수로 나누는 방법, 두번째는 각 변량과 그 상대도수를 곱해서 총합을 구하는 방법이다.
두번째 방법에서의 상대도수가 곧 확률을 뜻하기 때문에 확률변수의 평균은 두번째 방법을 쓴다.
(예를 들어 반 전체 100명중 80점이 3명이라면 80점의 상대도수는 3/100이며 이는 곧 100명중 아무나 골랐을 때 80점일 확률과 같다)
즉, 확률변수의 평균은 각 변수(xi)와 그 확률 P(X=xi)를 곱한 갑의 총합으로 구할 수 있고 이항분포도 예외가 아니다.
하지만 이항분포의 경우 그 결과가 매우 간단하다.
기본적인 방식으로는 xi*P(X=xi)의 총합 즉, xi*nCxi*p^xi*q^(n-xi)의 총합으로 평균 E(X)를 구할 수 있다.(q=1-p)
조합을 변형하는 과정이 약간 복잡하지만 이를 계산해보면 놀랍게도 E(X)=np라는 매우 간단한 결과가 도출되며 이 사실은 직관적으로도 납득이 가능하다.
(예컨데 동전의 앞면이 나올 확률이 1/2이라는 것은 2번에 한번 꼴로 일어날 가능성이 있음을 표현한 것이다.
만약 동전을 100번 던진다면 앞면이 몇번정도 나올 것으로 기대하느냐고 물어보면 누구나 50번 정도라고 답할 것이다.
이것이 곧 기댓값 즉, 평균이며 100*1/2로 시행횟수n과 확률p를 곱한 것이다)
다음으로 분산의 기본 정의는 편차제곱의평균이고 시그마의 성질을 이용해서 변형하면 (제곱의평균-평균의 제곱)과 같음을 알 수 있다.
이항분포의 분산도 같은 방식으로 구하는 것이 기본이다. 하지만 평균과 마찬가지 과정으로 두 차례의 변형을 통해 V(x)=npq라는 간단한 결론이 도출된다.
평균과 달리 분산의 결론을 직관적으로 납득하기는 어렵다.
표준편차의 정의는 분산의 음 아닌 제곱근이므로 루트(npq)이다.
원리 자체는 어렵지 않으니 1등급을 노리는 학생이라면 평균과 분산의 기본 정의로부터 직접 변형해서 위의 결론까지 유도해보길 바란다.
끝으로 이항분포에서 평균과 분산은 쉽게 구할 수 있지만 시행횟수가 많아지면 특정 변수값에 대한 확률을 구하기가 힘들어진다.
예컨데 주사위를 100번 던지는 시행에서 2가 40번이상 50번 이하로 나올 확률을 구하라 하면
2가 40번 나올 확률하나만 해도 계산이 버거울 정돈데 이런 계산을 11번 해서 합까지 구해야 한다.
이렇게해서 답을 구하는 것이 과연 그 시간만큼의 가치가 있을까. 그렇지 않다. 그래서 이런 경우는 근사치를 구하는 것이 훨씬 효율적이다.
시행횟수를 늘려가며 이항분포의 확률질량함수가 변화되는 양상을 추적해보면 정규분포에 가까워짐을 알 수 있다.
그래서 시행횟수가 충분히 클 때는 이항분포를 정규분포로 근사시킨 후 표준화해서 확률을 구한다.
일반적으로 np(일어난횟수의평균)와 nq(안일어난횟수의평균)가 모두 5이상이 되면 시행횟수가 충분히크다고 하며 오차가 매우 작아지기위한 조건이다.
X~B(n,p)이고 np와 nq가 모두 5이상일 때 X는 근사적으로 정규분포 N(np,npq)를 따른다.