
헤밍웨이가 일찌기 '세상에는 세 가지 거짓말이 있다. 착한 거짓말, 나쁜 거짓말, 그리고 통계'라는 말을 한 적이 있다. 헤밍웨이는 참으로 많은 주옥같은 이야기로 후대에도 많은 사람들이 써 먹기에 좋은 말을 했는데 통계에 대한 이야기는 그의 혜안이 빛난 말이 아닌가한다. 실제로 통계라는 것이 세상에 등장한 것이 겨우 100년인가가 넘는다고 하니 말이다.
우리는 평균이라는 표현을 자주 하고 평균에 속하기 위해 노력하고 평균에 미달된다고 하면 어딘가 부족한 사람이라고 스스로 자학하게 된다. 또한, 무슨 일만 터지면 그 즉시 여러 리서치에서 설문조사라는 것을 통해 그에 관한 통계가 발표되어 사람들에게 획일적인 사고를 하게 만들고 다수에 속하지 않으면 어딘지 나도 다수로 가야할 것 같은 흔들림이 시작된다.
도시 근로자의 평균 수입이 300만원이 넘는 것으로 알고 있다. 실제로 우리 주변에 평균 300만원이 넘는 수입을 올리고 있는 사람은 그다지 많아 보이지 않는데 말이다. 이것이 바로 평균의 오류다. 삼성전자에서 부회장을 하는 분의 1년 연봉이 수십억이지만 이런 사람도 다 바로 이 평균을 위한 숫자에 포함이 되다보니 이런 경우가 생긴다.
내가 속한 분야에서도 보험 설계사들이 평균 한달 수입이 600만원을 넘는것으로 나와 있는데 내가 못하는 인물이라 그런 사람만 주변에 모여 있는지 한달 수입이 600만원을 넘는 사람이 없다. 심지어 100만원도 못 버는 사람들이 즐비하다. 그런데도 평균으로 가게되면 무려 몇 배나 높은 금액을 버는 사람의 직업을 갖고 있는 것으로 나온다. 엄청난 괴리감이 아닐 수 없다.
이런 오류를 벗어나기 위해서 통계학자들은 정확한 비교를 통해서만 거짓말을 하지 않게 된다고 한다. 그건, 공정하게 비교를 해야 한다는 것이다. 이를테면 어느 학교가 특정 대학에 많이 입학을 했다면 평균적인 학교로 비교하면 안되고 그 학교가 특수학교 - 외국어고나 과학고 - 와 비교를 해야 정확한 사실을 알 수 있다는 것이다.
실제로 미국의 SAT라는 시험이 무수한 시행착오를 거쳐 지금은 누구에게나 공정한 시험이라는 이야기를 듣게 된 이유는 바로 공정하게 적정한 비교를 통한 시험문제의 제외에 있었다고 한다. 무조건 백인학생과 흑인학생의 비교를 통해 구별하는 것이 아니라 동일하게 잘하는 학생들간의 비교를 통했다고 한다. 실제로 잘하는 학생들과 못하는 학생들간에서는 인종에 대한 차이는 없었다고 한다. 다만, 백인은 잘하는 학생 수가 많았고 흑인은 못하는 학생 수가 많았다는 차이가 있었다.
이런한 통계를 잘 다루지 못한 사례로 전염성을 밝히는 것이 있다. 실제로 우리나라에서도 라면 파동 사건 이후로 특정 회사가 1등에서 추락하여 아직까지 1위를 탈환하지 못한 사건이 있는데 이 사건에서도 정확하고 확실한 조사와 비교 검사를 했어야 하는데 그렇지 못하 결과로 인해 밝혀졌다. 통계는 이런 순간에 과거의 통계와 비교 사례와 샘플을 통해 보다 정확한 사실을 제시해야만 한다.
미국에서 늘 러시아워로 막히던 도로가 있었는데 도로 진입구간에 신호등을 달아 교통의 흐름에 따라 도로에 진입하는 자동차들의 시간을 조절하여 어느 시간에 가더라도 막하지 않게 만들었지만 실제로 사람들이 느낀 감정은 뻥뻥 뚫려야 하는 시간에도 신호를 받고 가야 해서 오히려 시간을 낭비한다는 여론이 들끓어 끝내 한시적으로 신호가 없이 도로를 달리게 하자 이전보다 실제의 속도는 줄어들어 신호가 있는 것이 올바르다는 결과가 나왔지만 사람들은 그럼에도 신호가 없이 스스로 막히는 도로를 달리는 것이 자신에게 더 좋다는 착각을 한다는 점에 착안하여 신호를 통한 조절에 대해 다시 검토했다는 이야기는 인간이 얼마나 비합리적인가에 대해 알려준다.
얼마전에 롯데월드에 갔을 때 프리패스라는 제도 있는 것을 알게 되었는데 이 이야기가 책에서 월트디즈니와 관련되어 나온다. 줄을 서서 기다려 놀이기구를 타거나 프리패스를 통해 타거나 기다리는 시간은 같지만 사람들이 느끼는 시간은 다르다는 것이다. 무엇보다 프리패스를 통하면 지루한 시간에 재미없는 놀이기구라도 타기 때문이다.
평균과 관련된 가장 대표적인 분야가 바로 보험이다. 보험은 다수의 사람들에게 보험료를 받아 특정 개인(단체)에게 보험금을 지급하는 대표적인 대수의 법칙과 평균의 오류가 생길 수 있는 분야다. 책에서는 해안가 사람들이 더 많은 보험금을 타게 되지만 이들의 도덕적 해이로 인해 오히려 해안가에 사는 사람들이 늘어나고 이들에 대한 보험사의 기피현상은 갈수록 늘어 날 수 밖에 없어 이들만을 대상으로 한 보험으로 다시 평균을 내고 보험료를 받아야 한다는 이야기를 한다.
그 외에 거짓말 탐지기와 약물 복용에 대해서도 흥미로운 이야기를 전해 준다. 실제로 거짓말 탐지기가 미 법정에서는 증거로 사용되지 않지만 현재는 충분한 경험을 갖고 있는 사람이 다루는 거짓말 탐지기는 충분히 거짓말에 대해 판별을 할 수 있다고 하는데 거깃말 탐지기로 살인죄에 기소되어 복용한 사람의 이야기가 나오는데 이 사람은 살인을 하지 않았지만 거짓말 탐지기를 통한 엉뚱한 자백으로 살인죄를 뒤집어 쓴다. 이 사람과 같이 진정으로 무죄한 사람들이 오히려 자신은 떳떳하기 때문에 아무런 준비나 노력을 하지 않는다고 한다. 진짜로 무죄이니 꺼릴 것이 없다는 생각에 검찰측이 하자는 대로 다 했다가 죄를 뒤집어 쓸 수 있다고 하는데 이 이야기를 읽으니 내가 비록 무죄라고 해도 최대한 철저하게 준비하고 스스로 무죄인것을 증명해야 한다는 것을 깨닫게 해 준다.
숫자는 거짓말을 하지 않는다. 그 숫자를 이용하는 사람이나 단체는 거짓말을 한다. 진실인 숫자를 자신의 의도한 대로 가공하거나 첨언하고 차감을 해서 원하는 결과를 만들 수 있기 때문이다. 우리는 정확한 숫자로 표시된 통계는 무조건 그 발표가 사실이라고 믿게 되지만 그 숫자를 발표하기 전에 그 숫자에 포함하게 만드는 내용에 따라 얼마든지 속을 수 있다는 사실을 모른다.
숫자가 당신을 지배한다고 한다. 맞다 숫자는 우리를 지배하게 만드는 힘이 있다. 분명히 눈에 보이는 숫자를 보여주며 객관적인 통계이며 명확하게 보이는 증거를 믿지 못하느냐가 말한다면 반박할 말이 없기 때문이다. 책에서 희박한 확률이 일어난다면 그건 믿을 수 없다고 한다. 그런 확률이 일어나는 것은 확률상이지 실제로 일어날 수 없다고 통계학자들은 믿는다고 한다. 고로, 그런 사건이 일어나면 거의 사기라고 보면 되지 않을까 한다.
갈수록 고도화되고 복잡한 세상에서 숫자만큼 단순하게 사람의 믿음을 주는 표시도 없을 것이다. 숫자를 믿든 믿지 않든 내 자유지만 숫자를 믿어야 한다. 단, 숫자 이면에 있는 진실은 늘 잊지 않고 유념해서 들여다보는 습관을 들여야 하지 않을까 한다.

첫댓글 대한민국 남자 평균키가 173이란 통계는 믿구싶어요 ㅋㅋㅋ
통계중에서 특히 부동산통계의 경우는 산포도가 중요하죠. 또한 그러하기에 저는 수익률은 믿지 않습니다. 오직 수익금을 믿을뿐.