통계단원의 입문-확률변수와 확률분포.

확률변수란 이름 그대로 확률을 갖는 변수를 말한다. X=0일 확률, X=1일 확률 등 변수가 될 수 있는 각각의 값에 따라 확률이 존재한다는 뜻이다. X=0일 확률을 기호로 P(X=0)으로 같이 나타낸다. P(X=k)는 편의상 소문자를 써서 pk로 나타내기도 한다. 이런 확률변수는 크게 2가지가 있는데 하나는 이산확률변수, 하나는 연속확률변수이다. 확률변수가 뚝뚝 끊어진 채로 존재하는 값, 불연속적인 값들을 가지는 경우 이산확률변수라 한다. 횟수, 개수등 셀 수 있는 것들이 이에 해당한다.(이름에서 뜻을 짐작하기 어려우면 '이산'가족을 생각해보기 바란다) 반면 확률변수가 특정 범위 내의 모든 실수값을 가질 수 있을 경우 연속확률변수라 한다. 길이, 시간 등 셀 수 없는 것이 이에 해당한다. 확률변수에서 중요한 것은 결국 확률의 분포이다. 1이라는 전체확률이 각각의 변수값들에 어떻게 분포되어 있는지 나타낸 것, 이것을 이름 그대로 '확률분포'라 한다. 이산확률변수의 경우 셀 수 있는 변수값들이므로 확률분포를 표로 나타내는 것이 가능하다. 그래서 위에 확률변수를 쓰고 그 아래 그값을 가질 확률을 써서 표로 나타낸 것을 이름 그대로 '확률분포표'라 한다. 또 확률의 분포를 각각의 이산확률변수값과 그 확률을 x값과 f(x)값으로 해서 y=f(x)형태의 함수로 표현하는 것도 가능한데 이렇게 이산확률변수의 확률분포를 나타낸 함수를 '확률질량함수'라 한다. 확률질량함수의 그래프는 막대그래프로 그린다. 막대의 높이=함숫값=확률이고 그 합은 당연히 확률합인 1이다. 연속확률변수의 경우 셀 수 없는 무한개의 변수값이므로 확률분포를 표로 나타내는 것은 불가능하다. 그래서 함수형식으로만 표현하는데 연속확률변수의 확률분포를 나타낸 함수를 이산확률변수의 '확률질량함수'와 구별하기 위해 '확률밀도함수'라 한다. 이 역시 함숫값이 곧 확률이므로 전체범위를 정적분하면 확률합인 1이다. 특히 연속확률변수에서는 정적분으로 확률을 구하다보니 어떤 구간내의 특정변수값에 대한 확률은 0(a~a까지 정적분값은0)으로 취급하기 때문에 0이상 1이하일 확률이나 0초과 1미만일 확률이나 동일하게 계산한다. (단, 확률밀도함수 f(x)에 대해 f(a)=f(b)와 같이 특정 확률이 서로 같다는 조건이 주어졌을 때 연속확률변수에서는 둘 다 확률이 0이니 당연히 같은 것이 아닌가 라고 생각하면 안 된다. 있는 그대로 그래프 상에서 f(a)와 f(b)가 같다고 해석해야한다) 수열에서와 마찬가지로 확률분포도 특정 성질을 가질 경우 적절한 이름을 붙여 표현한다. 그 중 고등학교 과정에서 배우는 (이름이 붙은)확률분포는 '이항분포', '정규분포', '표준정규분포'라는 것들이고 이 것들만 제대로 알면 고등과정의 통계 단원(추정까지도)은 거저 먹을 수 있을 정도로 통계 단원의 전부라 해도 과언이 아니다. 다음에는 이런 확률분포들에 대해 써볼 생각이다. 물론 고등학생이 이해할 수 있는 한도내에서 작성할 것이기 때문에 필요이상으로 여겨지는 내용은 과감히 생략할 것임을 미리 밝힌다.