평균에 대한 글을 보니 그 다음으로 생각나는 것은 표준편차이다. 왜 표준편차를 구할 때는 편차의 제곱을 이용하는 걸까? 그냥 절댓값 같은 걸 쓰는 게 더 간단할 텐데, 왜 복잡한 방법으로 구할까? 한번 알아보자.
표준편차는 산포도의 일종
많은 자료를 대표하는 하나의 양이 평균이라면, 이 자료들이 얼마나 평균 주변에 모여 있는지를 알아야 할 때가 있다. 자료 하나하나가 평균에서 어느 정도 떨어져 있는지를 알려면 그냥 그 자료와 평균의 차를 구해보면 된다. 이것을 편차라 한다. 그러나 자료가 많으면 많을수록 편차 하나하나를 살펴보기가 어려우므로, 여러 편차들을 대표할 수 있는 하나의 양이 필요하다. 이것을 “흩어져 있는 정도”라는 뜻에서 산포도(散布度, dispersion)라 한다.
평균 가운데 가장 흔히 쓰이는 것이 산술평균이라면, 산포도 가운데 가장 흔히 쓰이는 것은 표준편차(standard deviation)이다. 이름부터 벌써 “표준”이지 않은가. 그렇지만, 다양한 평균이 있듯이, 다양한 산포도가 존재한다. 다른 산포도를 알아보기 전에, 왜 표준편차는 편차의 제곱을 이용하는지부터 생각해 보자.
편차의 제곱의 합이 가장 작은 경우는?
자료가 나타내는 값들을 x1, x2,…, xn이라 하고 그 (산술)평균을 m이라 할 때, 표준편차의 정의는 다음과 같다. 앞서 보았던 여러 가지 평균의 개념을 이용하여 말하자면, 표준편차는 편차의 실효값(RMS)이라 할 수 있다.
만약 단순히 편차 x1- m, x2- m, …, xn- m의 평균을 구한다면 어떻게 될까? 다음에서 보듯, 그 결과는 0이 되고 만다.
따라서, 편차들을 그냥 더하면 안 되고 적절한 방법으로 변형해야만 한다. 표준편차를 구할 때, 제곱을 한 다음 다시 제곱근을 구하는 것은 단위를 맞추기 위한 것일 텐데, 왜 하필 제곱을 하는 것일까? 그 이유는 문자 A에 대한 다음 이차함수
가 최소값을 가지는 경우가 바로 다음과 같은 때이기 때문이다.
그러니까, 자료의 값들이 평균에 가까울수록 흩어진 정도가 작다는 데에 부합하는 것이 바로 표준편차인 것이다.

평균이 50이고 표준편차가 20인 데이터의 예
<출처: CC: Lord Hidelan at Wikipedia>
편차의 절댓값의 합이 가장 작은 경우는?
그렇다면 편차의 제곱의 평균 대신 편차의 절댓값의 평균을 생각하면 어떻게 될까? 즉, 다음과 같은 식은 어떨까?
이와 같이 계산한 산포도를 평균편차(mean deviation)이라 한다. 편차의 제곱의 합이 평균값에 대해 최소가 된다며, 편차의 절댓값의 합은 어떤 값에 대해 최소가 될까? 이것은 다음 식이 어떤 A에 대해 최솟값을 가지는지를 묻는 것이다.
이 함수의 그래프를 그려 보면, A가 x1, x2,…, xn의 중앙값일 때 g(A)의 값이 최소가 된다. 그러니까 주어진 자료가 중앙값 주변에 얼마나 많이 모여 있는지를 알고 싶다면, 가장 적절한 산포도가 바로 중앙값에 대한 평균편차인 것이다.
표준편차와 평균편차를 실제로 한번 계산해 보자
중학교 때 이후로 문자만 보면 두드러기가 나는 사람들을 위하여, 구체적인 수를 가지고 표준편차와 평균편차를 계산해 보자. 계산의 편의를 위해 다음 10개의 자료를 생각하자.
이 자료의 (산술)평균은 5이고, 중앙값(크기 순으로 늘어 놓았을 때 가운데 값)은 3이다. 두 대푯값에 대하여, 각 자료의 편차와 그 제곱의 합, 절댓값의 합을 구하면 다음 표와 같다. 여기서는 평균을 m, 중앙값을 M으로 나타내었다.
표에서 알 수 있듯 편차의 제곱은 합은 평균값에 대해 계산한 값이 중앙값에 대해 계산한 값보다 작다. 또, 편차의 절댓값의 합은 중앙값에 대해 계산한 값이 평균에 대해 계산한 값보다 작다.
최소제곱법과 소행성 케레스
평균값에 대해 편차의 제곱의 합이 최소가 된다는 사실을 가장 극적으로 사용한 수학 이론은 아마도 오차의 제곱의 합을 가장 작게 만드는 지점을 찾는 방법인 최소제곱법일 것이다. 1801년 소행성 케레스(Ceres)가 발견되어 세상을 떠들썩하게 하였다. 그러나 겨우 며칠 동안 모습을 드러낸 케레스는 곧 태양 뒤로 사라졌고, 수많은 천문학자들이 케레스를 다시 찾기 위해 하늘을 향해 망원경을 돌렸다. 이때, 얼마 되지 않는 자료로부터 케레스의 궤도를 완벽하게 알아낸 사람이 바로 가우스(Gauss)였고, 그가 사용한 방법이 바로 최소제곱법이었다. 지금은 실험 데이터로부터 적절한 관계식을 만들어내는 가장 기본적인 이론이 되어 있다.

최소 제곱법을 이용해 소행성 케레스(좌)의 궤도를 알아낸 가우스(우)
또 다른 산포도는 없을까?
표준편차와 평균편차 이외에도 여러 가지 산포도가 존재한다. 가장 단순한 것이라면, 자료의 최솟값과 최댓값을 나타낸 “범위”를 들 수 있다. 또, 자료를 크기 순으로 정렬했을 때, 전체 순서의 1/4에 해당하는 위치의 자료와 전체 순서의 3/4에 해당하는 위치의 자료를 구하여 그 평균을 구한 “사분편차” 등이 있다.
관련링크 오늘의 과학 저자와의 질의응답 전체보기
첫댓글 감사합니다. 좋은정보를 얻어갑니다. ^^