뉴스를 빙자해 여론 조사 나 차트를 다분히 의도가 깔린 듯
왜곡했다는 사실들을 최근 자주 접하면서
이 책을 피할 수가 없었다
마케팅 업무를 처음 할 때 차트의 범례와 데이터 출처의 중요성을 배웠는데
이 책에서도 강조하고 있다
통계에 대한 전문 내용들이라 진도 빼기가 쉽지 않고
실사례를 많이 보여주고 있어서 하나하나 살펴보고 이해하려니 피곤해지는 .. ^^;
그래도 어지러운 세상을 살려니 꼭 필요한 책
중윗값은 값의 전체 범위를 크기가 동등한 두 집단으로 나누는 경곗값이다
중위 소득이 100만원 이고 인구가 1,500명이면, 750명이 100만원 이상, 750명은 100만원 이하로 번다는 뜻. 얼마를 버는 줄은 모른다. 0원일 수 있고 수억원 일 수 있다
왜 산술평균이 아니라 중윗값을 사용할까? 평균은 극단값에 매우 민감하게 반응하므로 일반 소득보다 훨씬 높게 나타나는 경향이 있기 때문이다
상관관계는 인간관계가 아니다
수치를 면적으로 표시하면 길이나 높이로 표시할 때보다 격차가 적어보인다 : 원그래프보다 막대그래프가 격차를 극적으로 보여준다
선그래프는 기울기도 정보를 전달한다
데이비드 바일러, 복잡해 보이지만 명확한 정보를 전달하는 차트
1. 제목, 설명, 출처
2. 측정 대상, 단위, 척도, 범례
3. 시각적 부호화
4. 주석을 읽어라
5. 폭넓은 시야로 패턴과 동향, 관계를 파악하라
선그래프에서 기준선이 반드시 0일 필요는 없다. 부호화는 위치와 각도
차트를 제작할 때에는 추이를 과장하지도 축소하지도 않는 이상적인 종횡비를 찾아야 한다. X축 시작과 끝에서 y축 측정값의 증가율이 35% 라면 종횡비는 100대 35 혹은 3대 1로 표현하는 게 이상적이다
로그 척도로 몇몇 데이터를 포착하기 쉬울 수 있다. 지진 강도를 표시하는 리히터 척도는 상용로그척도로 리히터 규모 2지진은 리히터 규모 1지진의 2배가 아니라 10배 강하다
색깔 척도는 합리적으로 써야 한다. 단순하게 4개 그룹 bin으로 설정하면 국지적 문제에 불과한 것으로 보여질 수 있고, 전체 데이터의 절반 가까운 분포를 보이는 그룹과 나머지를 6개 정도 그룹으로 설정하면 전체를 심각한 문제로 보여줄 수 있다. 가장 합리적이라면 전체의 측정값을 균등한 숫자로 구분할 수 있게 그룹 숫자를 설정하면 극단은 피할 수 있다
차트 디자인은 보여주려는 데이터의 특성과 그로부터 도출하려는 의미에 따라 달라져야 한다