HowToLieWithStatistics을 추천으로 읽었다. 전자도서관에서 새빨간 거짓말로 찾았지만 없었기에 완독에는 시간이 더 걸리는 원서를 구했다. 첫 대목은 잘 알려진 오류인 샘플에 의한 통계왜곡이다. 민주당원을 대상으로 민주당의 지지도를 설문하면 당연히 국민을 대상으로 한 설문과 다른 결과가 나올 것이다. 11 24년 예일클래스의 소득이 29천불이라는 것도 신뢰성이 의심된다. 모든 사람을 연락했는지도 의문이며 각자가 사실대로 응답할 가능성도 크지않기 때문이다. 20
우리가 평균이라고 하는 값은 산술평균부터 중위값, 최빈값이 포함된다. 필요에 따라 가구소득 평균이 1만파운드라고 할 수있지만 고소득인 한가구가 포함되어 높을 수있다. 즉 중위값은 2천파운드일 수있는데 이 경우 한가구의 고소득을 배제하면 평균과 비슷해진다. 또한 최빈값은 3천파운드가 될 수있다. 31 소득이 정규분포를 따른다면 세값은 일치하게 되지만 키나 몸무게와는 달리 소득은 이상치가 있는 경우가 많고 후진국일 수록 빈부차가 심하게 되는 경향을 가진다. 연소득평균이 2만파운드인 경우 5천파운드 이하가 95%이상이고 몇 가구가 고소득일 수있다는 뜻이다. 이 경우 왼쪽으로 몰려있는 분포를 가진다. 32
25마일이내 도로, 철도, 수로가 있는 지역은 유럽전체, 미국/일본/한국/대부분의섬나라전체, 캐나다/호주/아프리카 남부, 인도 중남부, 대부분의 해안 등으로 바다의 중요성을 새삼 느끼게 한다. 48 켄 피셔는 21세기자본의 저자가 통계를 왜곡했다고 하는데 그 근거는 가구원수가 줄어들고 있음에도 불구하고 가구당 소득증가율이 자본수익률증가보다 낮으므로 생산성향상에 대한 노동분배율이 낮아지고 있다고 주장한 것이다. 나름 타당성이 있다. 게다가 토마 피케티는 책값도 도서관용은 다른 책에 비해 상당한 고가로 2권이상조건으로만 팔고있어서 그 오류를 숨기려고 하지않았는지 의심하게 하기도 한다. 다만 4년전 읽고 작성했었던 그의 책 리뷰를 보니 인당소득기준으로도 소득증가율이 낮은 것으로 정리되있어 피셔의 착각으로 보인다. 72
인도의 통계는 신뢰성확보가 어렵다. 조사대상이 실질보다 희망을 입력하는 경향때문이다. 입력이 잘못되면 당연히 믿어서는 않된다. 아침 7시보다 저녁 7시의 고속도로 사망자가 많다는 내용도 사실일 가능성은 높지만 고속도로 통행자가 오후에 더 많기에 꼭 더 위험하다고 판단하기는 어렵다. 입력은 정확하더라도 인원이 아닌 인원당 사고율을 비교해야 하기 때문이다. 77 이는 날씨가 흐릴 때 보다 맑을 때 사고가 많다는 통계에도 적용될 수있다. 단순 사고가 아닌 맑은 날이 흐린 날보다 더 많을 수있기 때문이다.
교통사고 사망자중 철도관련이 특정 기간에 4712명이라는 자료도 자료 자체는 맞을 수있지만 조금 더 분석하면 그중 철도승객은 132명에 불과하고 교차로에서 기차와 충돌한 자동차승객이 나머지라는 것을 알아야 한다. 사망자는 항공승객이 철도와 자동차보다 많을 수있지만, 장거리여행의 위험을 비교할 때는 승객거리당 사망자수를 비교해야 한다. 승객이 더 많거나 여행거리가 많은 비행기는 실제 위험보다 더 높은 사망자수를 가질 가능성이 높기 때문이다. 78
1%의 매출이익률은 낮아 보인다. 대출이자율이 5%라면 1%의 이익을 위한 식료품사업에 투자하기 어렵다고 생각할 수있다. 하지만 대출이자는 1년이고 식료품매출회전율은 1일일 수있다. 이 경우 1%의 매출이익률은 연간으로 따지만 365%의 매출이익을 의미하므로 충분히 사업성이 있다. 5%의 이자를 내고도 360%의 이익이 발생하기 때문이다. 80 미국의 스페인전쟁시 미국해군의 사망율이 0.9%지만 뉴욕 민간인 사망율은 1.6%이기에 모병관은 해군이 더 안전하다는 주장을 했지만 이 역시 비교대상이 다르기에 의미가 없다. 민간인은 사망율이 높은 유아와 노인을 포함하고 해군은 그 비율이 낮은 청년이 대부분이기 때문이다. 81
황새가 아기를 집에 데리고 온다는 말은 황새둥지수와 아기수가 상관관계가 있다는 통계에서 사실로 입증된다고 생각하는 사람도 있다. 하지만 상관관계는 역이 사실이거나 제3의 원인이 있을 가능성이 크다. 집이 크면 황새가 둥지를 만드는 장소인 굴뚝도 많고 대가족이면 집이 클 가능성이 크기 때문이다. 즉 대가족이기에 집이 크고 집이 크기에 굴뚝도 많고 굴뚝이 많기에 따뜻한 곳에 둥지를 만드는 황새도 많을 가능성이 더 크다. 85
1 The sample with the built-in bias 14
2 The well-chosen average 30
3 The little figures that are not there 37
4 Much ado about practically nothing 52
5 The gee-whiz graph 58
6 The one-dimentional picture 64
7 The semi-attached figure 72
8 Post hoc rides again 84
9 How to statisticulate 94
10 How to talk back to a statistic 110