R
까기를 하다가 느낀 것은 개념의 중요성이다. 나름 한번 정리해봐야지.
물론 내가 독학을 한건 아니고 여기저기 사이트를 돌아다니면서 줏어모은 것이지만 내 손으로 한번 적어보면 훨씬 나을 듯
하다.
일단
통계가 필요한 이유는 모든 것을 다 조사하고 계산할 수 없기 때문이라고 한다.
따라서 일부를 추출해서 보는 것이다. 이걸 내 상황에 맞춰 보면, 나는 번역학과 학생들의 번역물을 가지고 쪼물딱거리는 사람인데, 모든 학생들의 모든 번역물(모집단)을 데이타로 수집할 수 없다. 그저 몇
학교 혹은 몇 개의 반에서 모은 데이타를 가지고 분석하고 해석해야한다.
따라서 내 데이타는 표본이다.
그런데
데이타란 읽어줘야하는 것. 읽을 수 없는 데이타는 그냥 무용지물일테니까. 그렇다고 데이타가 그렇게 쉽게 읽히는 거라면
우리들의 삶은 조금 단순해졌을지도 모른다. 하여간 똑똑한 사람들이 그 데이타 읽는 법을 여러가지로 개발해
놓은 것 같고, 나 같은 돌머리는 그것조차 이해 못해 이 고생이다. 훌쩍~!
데이타
읽어내는 방법이 여러가지 있는 듯 하고, 그 중 많이 사용하는 개념들이 평균, 표준편차, 평균편차,
중앙값, 최빈값 등등이 있는 거 같다. 수많은 데이타를 하나하나 설명할수 없으니 뭉뚱그려보자는 속셈일지도.
평균
이
개념은 네이버 캐스트에서 퍼왔다. 보아하니 평균에도 여러가지 종류가 있는 듯 하다. 조화평균(harmonic
mean), 산술평균(arithmetic mean), 기하평균(geometric mean). 조화평균은 속력과 관계가 있고,
기하평균은 경제성장율 같은 거 계산할때 쓴단다. 그렇지만 내가 관심있는 건 산술평균이다.
산술평균:
많은 양의 자료를
다룰
때,
전체적인
양상을
하나의
수로
나타내면
편리한
경우가
많다.
이때
흔히
사용하는
개념이
바로
평균이다.
우리가
보통
사용하는
평균은 산술평균 (arithmetic mean)으로,
한
반의
시험
성적을
전부
더한
다음
학생
수로
나눈
반평균도
그
한
예이다.
중학생의
평균
키니,
평균
몸무게니
하는
것도
모두
산술평균을
이용하여
구하게
된다.
기하평균:경제에 관심있는 분들을
위해 네이버 캐스트에서 퍼왔다.
산술평균, 조화평균과
함께
자주
볼
수
있는
평균으로는 기하평균 (geometric mean)을
들
수
있다.
이것은
특히 경제성장률이나 인구증가율을
나타낼
때
흔히
볼
수
있다.
예를
들어,
어떤
나라의
경제
규모가
x 달러였다고 하자. 이
나라의
경제
규모가
1년 동안 2배로
커져
2x 달러가 된다면 경제성장률은
100%가 된다. 만약
그
다음
1년 동안은 경제를
말아먹어서
경제
규모가
1/2배인 x 달러로
쪼그라든다면,
경제성장률은
-50%가 된다. 이때
2년 동안의 경제성장률을
1년 단위로 평균을
낸다면
어떻게
하는
게
합리적일까?
그냥
2배와 1/2배의
산술평균을
구하여
1.25배라고 하면 어떨까?
원래의
경제
규모로
되돌아갔으니,
경제가
성장한
것이
없는데도
1.25배라고 하는 것은
아무래도
부적절하다.
사람들이
산술평균에
익숙하기
때문에,
이처럼
실제로는
성장한
것이
없는데도,
적절하지
않은
평균을
이용하여
사람들을
속이는
경우가
많다.
은행에서
기하평균이
아닌
산술평균을
이용하여
이자율을
보여주거나
하는
것도
이런
거짓말
-- 좋게 말해 상술
-- 가운데 하나이며, 경제
관련
정부
부처의
대변인은
특히
이
방면의
전문가들이다. 뭐, 이부분의 공식같은 건 네이버 캐스트 참조하세용!
중앙값 (Median)
평균하고 비슷해 보이기는 하지만 약간 다른 놈이다. 즉 데이타를 오름차순 혹은 내림차순으로 죽 늘어놓았을 때 가장 가운데 있는 숫자란다. 그렇다면 이건 데이타가 숫자일때만 가능할거 같다. 문자를 오름 혹은 내림차순으로 늘어놓을 수는 없을테니까. 하여간 이것이 중요한 이유는 만약 데이타가 10,20,20,20,20,20,20,30,1000 이라고 나왔을때 이걸 그냥 산술평균을 내면, 1000이라는 데이타 하나 땜시 평균값이 확! 올라가버리니, 그걸 방지하기 위함이란다. 음, 그렇군요!
최빈값 (Mode)
여기서 '빈'은 가난할 빈이 아니라 가장 빈도수가 높다라는 의미다. 가장 많이 나타나는 데이타라고나 할까?
저번에 들은 말에 의하면 좌우대칭인 정규분포에서는 mean, median, mode가 일치한다고 했다!
사분평균(interquartile mean)
요놈은 중앙값과 비슷하게 상하위 25% 빼고 나머지만 가지고 평균을 구한 넘이란다. 역시나 너무 낮거나 높은 숫자의 데이타가 데이타 전체 해독을 방해하는 것을 막기 위해 만들어놓은 넘이라고 이해하면 될 듯.
그 외에 각가지 평균들이 많은 듯 하다. 어떻게 보면, 물렁물렁한 데이타를 쪼물딱거려서 자기멋대로 모양을 만들어 버릴수도 있는 것이 바로 통계일지도 모른다는 생각이 든다. 통계를 믿지말자!!! 라고 해야할까? -.-a