통계의 함정

요즘은 통계학이 발달해서 %라는 표시가 자주 눈에 띈다. 오늘 우연히 한 여론조사 결과를 소개하는 책을 보았다.   - 미국의 예일대학교에서 1500명의 졸업생을 대상으로 조사한 결과 돈을 많이 버는 직업을 선택한 사람이 1245명(83%)이었고, 255명(17%)은 자신이 좋아하는 일을 선택했다고 한다. 그 졸업생 중 20년 후 백만장자가 된 사람은 101명이었다. 그런데 부자가 된 사람 101명 중 돈을 많이 버는 직업을 선택한 사람은 단 1명뿐이었고 나머지 100명은 모두 좋아하는 일을 선택한 사람이었다. 역설적으로 돈을 잘 벌고 싶어서 많은 연봉을 주는 직업을 택한 사람 1245명 중 정작 큰 돈을 번 사람은 단 한사람뿐이었다는 얘기다.   그런데 몇 년도에 설문조사를 해서 몇 년도에 재조사를 했는지 자료가 없다. 누가 했는지 주체도 없다. 재조사 응답률이 얼마였는지도 나오지 않는다. 마치 글쓴이가 조사한 것처럼 출처조차 없다. 우리나라에서는 아직도 자료, 근거, 증거 등에 대한 인식이 낮아 그냥 아무 말이나 지껄이면 사실여부에 관계없이 들불이 일어난 것처럼 돌아다닌다. 유언비어, 소문 따위가 검증당할 새 없이 생활 속으로 파고든다.   이 글이 의심스러워 인터넷에서 더 검색을 해보니 이런 자료가 나온다.   - 1965년 하버드대와 예일대 출신 졸업생들을 대상으로 실시한 설문조사 결과가 한 예다. “당신은 졸업 후 무엇을 할 것인가?”란 질문에, 85%가 “미확정”, 12%가 “어느 정도 정해졌다”, 3% 학생들이 “구체적인 계획을 가지고 있다”고 답했다. 20년 뒤 설문조사를 분석한 결과 놀라운 통계가 도출됐다. 3%에 해당하는 졸업생들이 번 돈이 97%의 졸업생들의 번 돈의 한배 반에 가깝더라는 것이다.   연도가 나오는 등 약간 더 자세해졌는데, 역시 조사한 이, 조사방법, 응답률 등 기본 사항이 빠져 있다. 그리고 앞에 소개한 내용과 엇비슷한데 같은 연구를 서로 다르게 해석한 건지, 전혀 다른 연구인지 모를 정도로 유사하다.   이에 대해 이런 통계를 비판하는 글이 하나 있다. 이 글은 논리적으로 비판을 하긴 하는데, 또 자기 주장이 너무 들어가서 응답하지 않은 사람은 이런 유형일 것이라고 단정해버리는 단점이 있다. 읽어보시고, 생활 속에서 좀 더 정확하고 바르게 표현하는 습관을 들이도록 하자.   - 예일대 졸업생 평균소득의 비밀 - 표본추출에 의한 사실의 왜곡    "1924년도 예일대학 졸업생의 연간 평균소득은 25,111달러이다"라는 < New York Sun > 지에 나온 기사를 < Time > 지가 논평한 일이 있었습니다. # 그당시 25,000 달러는 상당히 큰 돈임 #   그러나, 이 숫자의 참뜻은 무엇일까요? 만약 아들 딸들을 예일대학에 입학시켜 놓기만 하면 부모는 물론 아들까지 노후에 일하지 않고 잘 지낼 수가 있다는 뜻일까요 ? 이 숫자를 의심쩍은 눈으로 잠깐만 쳐다보면 쉽게 두 가지 사실을 알아낼 수 있을 것입니다.   첫째, 그 숫자가 놀랄만큼 자세하고 정확하다는 사실입니다. 그리고, 다음으로는 이 액수가 정말같지 않게 높다는 사실입니다. 그런데, 이 고소득층의 평균소득이 1달러단위까지 알려질 가능성은 있을 것 같지는 않습니다. 더구나 소득이 전부 월급만이라면 또 모르나 누구든지 작년에 받은 자기자신의 갖가지 소득을 그렇게 정확히 기억하고 있으리라고는 생각되지 않습니다.   이 매력적인 평균치는 예일대학 졸업생들이 자기의 소득이라고 통보해온 금액을 토대로 계산한 것에 틀림없을 것인데 설사 그들이 정직해서 졸업시험에 무감독 제도가 채택되었었다 치더라도 그들이 통보한 소득액이 전부 정직한 것이라고는 믿기가 힘들 것입니다. 소득이 얼마냐고 물을 때 어떤 사람은 허영심 또는 낙천주의 때문에 소득을 실제보다 높게 적는 사람도 있고, 또 어떤 사람은 작게 적은 사람도 있습니다. 특히 소득세신고를 할 때에 일단 적게 써 낸 사람은 그 후에는 어떤 서류에도 소득세 신고를 할 때의 금액과 모순된 수를 적는데 겁을 먹게 되어 항상 적게 써내는 법입니다. 왜냐하면 언제 국세청에 있는 관리들이 어떤 기회로 말미암아 이들 서류를 보게 될지 모르기 때문입니다. 그런데, 적게 쓰는 사람과, 과장하는 사람간의 경향이 서로 상쇄된다고 하는 사람도 있습니다. 그러나, 그것이 실제 일어나리라고는 생각되지는 않습니다. 왜냐하면 둘 중의 어느 한 향이 훨씬 강하게 될지도 모르기 때문입니다.   그러면 이제 실제로는 평균소득이 25,000달러의 절반에도 못미치는 사람들의 평균소득마저도 25,000달러라고 한 커다란 잘못이 어디에서 발생했는지를 알아보기로 합시다.   이것은 표본추출의 문제로서 모든 종류의 통계에서 가장 중요하다고 할 수 있는 일입니다. 표본추출의 실제적인 방법에는 여러가지의 방법이 있지만 그 기본은 매우 간단합니다. 예를 들어 콩이 한말 있다고 합시다. 그 안에는 빨간 콩도 있고 흰콩도 있는데 양쪽 콩의 수를 정확히 알지는 못합니다. 여기서 양쪽콩의 수를 정확히 아는 방법은 딱 한가지 모든 콩을 한알 두알 세는 방법뿐입니다. 그러나, 그들의 수를 대략적으로 알아내는 데는 쉬운 방법이 있습니다.   즉 빨간콩과 흰콩의 배합률이 일정하다고 가정한다면 한 줌의 콩만을 세어보는 것만으로도 충분할 것입니다. 추출한 표본이 충분히 크고 꺼내는 방법이 적절하기만 하다면 이 방법은 전체의 수를 잘 대표할 것입니다. 그러나, 표본이 이러한 조건을 구비하지 못하는 경우에는 현명한 눈짐작이 더 정확할지도 모릅니다. 이런 표본은 겉으로는 과학적 정확성을 지닌 것처럼 착각되기 쉬우나 권유할 만한 것이라고는 할 수 없습니다. 왜냐하면 왜곡이 심하거나 또는 표본이 너무도 작거나 또는 두가지 모두의 이유로 해서 표본으로부터 얻어진 결론이 사실을 잘 반영하지 못할 수가 있기 때문입니다.   예일대학 졸업생에 관한 결과도 결국은 표본으로부터 얻어낸 것입니다. 당연한 이야기이지만 현재 생존하고 있는 예일대학 졸업생들을 모두 알고 있을 수는 없을 것입니다. 주소불명인 졸업생들이 많다고 해도 이상할 것은 없을 것입니다. 또, 주소가 알려져 있는 졸업생 중에서도 대부분의 사람은 질문지에는 회답을 보내지 않은 것이 대부분이고, 더구나 개인적 생활에 관한 질문지에 관해서는 더욱 그러할 것입니다. 우편을 통한 질문지의 경우에는 5%-10% 정도의 회답이 있어도 꽤 높은 회수율이라 할 수 있는데 예일대학 졸업생에 관한 조사에서 회수율이 이보다 높았다 하더라도 100%가 되었을리는 절대 없었을 것입니다.   그러므로, 평균소득에 관한 25,000달러라는 숫자는 전 졸업생중 "주소가 알려져 있고", 그 중에서도 "회답을 보내온 사람들"로 이루어진 표본을 토대로 하고 있다는 것을 알 수 있습니다.   그렇다면 이 표본은 전체를 대표할 수 있다고 할 수 있을까요? 즉, 이 사람들의 소득이 질문지를 받지 못했거나, 질문지를 받고도 회답을 보내오지 않은 사람들의 소득과 같다고 생각할 수 있을까요..?   예일대학 졸업생중에 졸업생 명부에서 빠진 사람들은 어떤 사람들일까 추측해 봅시다. 그들은 월가의 주인, 큰 회사의 이사 또는 공장의 공장장이나 중역처럼 고액납세자들일까요..? 분명히 그렇지는 않을 것입니다. 고급 월급장이의 주소라면 동창들과 소식을 끊고 지내더라도 여러가지 연감을 이용해서 주소를 쉽게 알 수 있을 것입니다. 주소를 알 수 없는 사람들이란 예일 대학을 졸업하고도 25년이 지나도 거룩하고 빛난 업적을 남기지 못한 사람이라고 생각해도 좋을 것입니다. 예컨대 사무원,공원, 실업자.. 등등..   다음으로 질문지를 받고도 그것을 쓰레기통에 구겨 넣는 부류의 사람에 대해 알아봅시다. 이들에 대해서는 그렇게 확실히 이야기할 수는 없지만 아마도 자랑할 만큼의 수입을 올리지 못하는 사람들이라고 추측할 수 있을 것입니다.   이상으로써 위의 표본에는 "평균소득을 가장 저하시키는 두 그룹"이 빠져 있다는 것은 명백해 집니다. 즉, 25,000달러의 정체는 24년 졸업생 중에서도 주소가 알려져 있고, 그리고 소득액이 얼마인가를 기꺼이 알려줄 수 있었던 특별그룹에 대해서 만이라는 것입니다. 이 결론마저도 신사는 거짓말을 안한다는 가정 위에서만 진실일 것이겠죠.   ... Darrell Huff, <How to Lie with Statistics>