표준 편차
일단
통계에는 표준편차라는 말이 어김없이 등장한다. 이유는 모르겠지만 말이다. 하여간 이건 일종의 산포도(dispersion)란다. 산포도란 산에서 나는 포도가 아니라, 자료 하나하나가
평균에서 얼마나 떨어져 있는지 알아 보는 거라고, 네이버캐스트에 기고를 하신 교수님이 말씀하셨다.
대충 뭉뚱그려 평균을 내었지만 그걸로는 만족하기 어려워 만든 후속조치인 것 같다.
그런데 데이타 하나하나를 살펴볼 수 없어 평균이라는 걸 만든 것과 마찬가지로, 데이타 하나하나가
평균과 얼마나 떨어져 있는지 알아내봤자 아무소용 없기 때문에 편차들의 대빵을 정해놓은 게 표준편차라고 한다.
여기서
궁금증. 사실 표준편차 구하는 방식은 공식화 되어 있고,
어디서든 찾을 수 있다. R 에서도 sd()를 사용하면 구할 수 있고, SPSS 에서도 그냥 메뉴에 체크만 하면 나온다.
근데 왜 편차의 제곱을 이용해야하는지, 위에서 언급한 교수님이 아주 친절하게 설명을
해놓으셨다.
왜 표준편차를 구할 때는 편차의 제곱을 이용하는 걸까? 그냥 절댓값 같은 걸 쓰는 게 더 간단할 텐데, 왜 복잡한 방법으로 구할까?
구체적인 수를 가지고 표준편차와 평균편차를 계산해 보자. 계산의 편의를 위해 다음 10개의 자료를 생각하자.
다음과 같은 데이타가 있다고 치자 : 1,2,2,3,3,3,9,9,9,9
산술평균은 5,
중앙값은 3
그렇다면 편차는 모든 데이타와
5의 차이가 된다: -4,-3,-3,-2,-2,-2,4,4,4,4 이니 이걸 다
더하면 0이 되어버린단다. 그걸 방지하기 위해 편차를 제곱해서 다시
루트를 씌우는 거라고 했다.
그럼 직접 숫자를 보기 위해 제곱을 해보자. 16,9,9,4,4,4,16,16,16,16 = 110 이라는 숫자가 나오고
110을 데이타 전체 갯수인 10으로 나누면 11이 되고 이넘이 바로 분산 (variance) 이란다. 이 숫자는 제곱을 해서 나온거니 원상태 복귀를 위해 루트를 씌어주며, 그게 바로 표준편차라고
했다.
그런데 지금 여기 설명에서는 데이타 전체 갯수인 10(n)으로 나눴는데, 실체 표준편차 공식을 보면
n-1 로 나누게 되어있다. 이유가 뭘까나. -.-a
아시는 분, 좀 갈쳐주소…
하여간, 표준편차와 더불어 평균편차라는 개념도 있다.
표준편차가 편차의 제곱의 평균을 내어 루트를 쒸운 거라면, 평균편차는 편차의 절대값의 평균이란다. 즉 위의 예를 다시 적용해서 볼때, 편차는-4,-3,-3,-2,-2,-2,4,4,4,4
이고 절대값은
4,3,3,2,2,2,4,4,4,4 이니까 그 합은 32 이고 그 평균은
3.2 이다. 그러니까 주어진 자료가 중앙값 주변에 얼마나 많이 모여 있는지를 알고 싶다면, 가장 적절한 산포도가 바로 중앙값에 대한 평균편차인 것이다.
하지만 또 네이버 지식인에서 어떤 분이 설명하길,
“이론적으로는 평균편차가 정확한 편차라고 할 수 있습니다.
바로 편차들을 전부 더한것의 평균이기 때문이지요. 그러나 편차의 합은
0이기 때문에 절대값을 사용해서 이것들을 나타내게 됩니다. 하지만 이것을 잘 쓰지
않는 이유는 편차를 함수로 나타내야 하는 경우에서 절대값 함수이기 때문에 미분이 안된다는 단점이 있습니다. 그리고 두번째 이유는 계산이 무지하게 어렵고 구하더라도 그 값을 표현하기가 만만치 않습니다. 그래서 이건 많이 사용하지 않습니다” 라고 되어있으니, 그냥 패쓰! 많이 사용하는 것 익히기도 힘드니 일단 그런 것부터 알아둬야지.
그 외의 산포도
범위 (range):
자료의 최소값과 최대값을 나타낸 것
사분편차: 자료를 크기 순서로 정렬했을 때 가장 가운데 있는 것이 중앙값이라면, 사분 편차는 전체 순서의
¼에 해당하는 위치의 자료와 전체 순서의 ¾에 해당하는 위치의 자료를
구하여 그 평균을 구한 것이란다.
사람들은 데이타를 이해하기 위해 별별 것들을 다 만들어놓은 것 같다.....
@.@ 스텔라
p.s. 여기서 쓴 것들 거의 대부분 퍼온 거다. 그런데 한군데서 퍼온 게 아니고 여러군데서 퍼왔기 때문에 일일이 출처를 적기 힘들다. 이건 박사논문이 아니지 않냐 말이다! 혹시 지나가다, 이건 내 설명인데 라고 생각하시는 분 계시면 알려주시길, 그리고 용서하시길... =)