숫자를 이용해 진실을 바꾸는 방법, 통계
by 닥터조단
사실 이 책은 순전히 유명인사의 추천으로 읽기 시작했다. 통계라는 수치가 보여주기에 따라 결과에 커다란 차이를 준다는
사실은 익히 알고 있기는 했지만, 실제적인 사례를 이용하여 통계가 가지고 올 수 있는 또는 보여줄 수 있는 것들이 매우 달라질 수 있음을 다시
한 번 깨달을 수 있었던 책이었다. 예를 들면 "리버티 다이제스트" 사의 미국 대통령 사전 예측 사건을 보면 이는 이 회사가 조사한 표본이 전체
집단을 대표하지 못하는 집단을 추출한 것에 비롯되었다는 사실을 보여준다.
또, 일반 회사에서 가장 높은 임금을 받는 임원들의 급여와 이익금을 전체 급여에 포함함으로써 보이게 되는 전체
임금수준의 상승 정도를 통해 평균이 진실을 호도할 수 있는 예를 보여주기도 한다. 적은 숫자의 표본을 이용하여 통계를 조작하기도 하는데 여기에는
의약품의 효과를 과장하기 위해서 충분히 많은 사람에게 실험을 시행하지 않고 10명 정도로 표본을 뽑는 등의 실험을 통해 의약품 회사가 구미
당기는 결과를 얻어내는 방법에 관해서도 이야기한다. 또, 아전인수 격으로 변수들에 대한 제3의 요인과 상관관계를 고려하지 않고 결과를 해석하게
되면 "매사추세츠주의 어느 장로교 목사의 수입과 하바나의 럼주 가격 사이의 높은 상관관계"에 대해 고개를 끄덕일지도 모른다. 알고 보면 그 당시
물가상승에 의한(제3의 요인) 효과였는데 말이다.
통계 과정에서 발생하는 오류뿐만 아니라 이 책은 통계의 결과를 보여주는 백분율, 그래프 또는 그림도표의 수정이 가지고
오는 진실도 달라질 수 있음을 보여준다. 백분율끼리 더하거나 빼 자신이 이득이 되는 숫자는 과장하고 자신에게 불리한 숫자는 줄인다. 그래프의
중간을 제거한다거나 그래프 Y축의 숫자들의 범위를 달리하여 그래프를 보는 사람들의 인지를 마비시킬 수 있는 사례들을 보여준다. 또, 그림도표에서
2배의 차이를 강조하기 위해 두 그림 간의 길이 차이를 2배로 유지하면 결국은 부피상 2의 세제곱인 8배의 차이로 보임으로써 진실을 바꿀 수
있음을 보여준다.
저자는 이러한 통계적 조작에서 제대로 된 해석을 하기 위해서 마지막으로 5가지 팁을 소개하며 책을 마친다. 이 팁 중
첫 번째는, 통계의 숫자를 모은 사람들과 또 구별하여 발표한 사람들이 누구인지 파악해 보는 것이다. 저명한 대학에서 수집한 데이터를 기자가
자신의 입맛에 따라 결론을 내버릴 수도 있기 때문이다. 두 번째는 조사방법의 타당성을 파악하는 것이다. 충분히 모든 표본을 대표할 수 있는
표본을 가지고 결과를 내었는지 파악해 보는 것이다. 세 번째는 숨긴 숫자는 없는지 파악해 보는 것이다. 네 번째는 쟁점이 되는 것들이 빠지지
않았는지 파악해 보는 것이고 다섯 번째는 상식적으로 우리가 생각할 수 있는 이야기인지 생각해보고 석연치 않은 부분들은 따로 조사해 보는 것이다.
너무 많은 예에서 상관없는 것들이 상관을 가지고 있게 보일 수 있기 때문이다.
저자는 통계에 빠질 수 있는 오류들에 대해서 다양하고 쉬운 예로 설명해준다. 매일 통계를 접하며 살고 있는 우리가 한
번쯤 제대로 된 시각을 갖기 위해서는 꼭 한번 읽어보면 좋을 것 같다.
통계를 분석하고 올바른 결론을 추출하는 방법을 알려주는 저자, 대럴 허프
작가소개
1913년 미국 아이오와 주에서 태어나 아이오와 주와 캘리포니아 주에서 자라났다. 아이오와 주립대학을 우등으로
졸업하고 대학원 과정에서 통계학과 심리 검사 연구를 진행하며 사회심리학 분야의 석사 학위를 취득하였다. 여러 잡지의 편집인 또는 편집책임자를
지내면서 거의 20년 동안 여러 잡지에 기고하는 자유기고가로 활약하였다. 그는 수학과 관련된 많은 글을 기고하였으며 1963년 NATIONAL SCHOOL
BELL을 수상하였다.
관련링크 통합검색 더보기
예일대학 졸업생들에 관한 기사는 표본에서 얻어진 것이다.
책속 밑줄 긋기
최빈값이란, 주어진 자료 중에서 도수가 가장 큰 값,
즉 가장 많이 발생하는 값을 말한다. 예컨대 이 마을 세대들의 소득 중에서 3천만 원의 소득을 올린 세대가 가장 많으면 바로 그 값이
최빈값이다. (38쪽)
추출된 표본이 전체 밭을 얼마나 정확하게 대표할 수
있는지를 숫자로 나타낼 수 있는 이를 예상 오차(probable error)와 표준오차(standard error)라
한다. (76쪽)
누구나 다 숫자를 늘리기 위해 필사적으로 뛰고 있다.
그런데 그 수를 표로 만드는 것이 금지되어 있고 말이나 글로는 도저히 나타낼 수 없다면 어떻게 해야 할까? 한 가지 방법은 있다. 즉 그래프로
나타내는 것이다. (84쪽)
기하평균이란 것은 산술평균과는 약간 다른 평균이지만,
산술평균과 마찬가지로 합법적인 평균값으로 때에 따라서는 매우 유용하게 여러 가지 사실을 제공하는 평균값이기도 하다.
(163쪽)
지수를 알고 있다 하더라도 그 지수 외에 무엇이
생략되어 있는가를 찾아봐야 한다. 아마 지수를 계산할 때의 기준이 빠져 있을 가능성이 많은데, 무엇을 기준으로 정하느냐에 따라 왜곡된 통계
숫자를 만들어 낼 수 있기 때문이다. (176쪽)
통계에 대한 이해 - '닥터조단'님이 권한, 함께 읽으면 좋은 책들
추천도서