문재인대통령의 5.18연설은 감동이었다. 특히 나에게 “부채의식”이란 단어가 주는 무게는 특별했다.
2015년 SAS 본사에 있을때 나는 이미 선배를 통해 더 플랜에 나오는 전희경교수의 자료를 검토할 기회가 있었다. SAS에 한국 사람 20여명이 있었지만 실제 데이터분석 경험이 있는 사람은 나밖에 없어서 나에게까지 온 것이다.
작은 애가 아파 잠도 못자고 있는 상황이어서 자세히 검토할 수는 없었기도 했지만, BBK 광운대 동영상을 보고도 “주어”가 없다고 부정하는 인간들을 상대로 통계전공자가 보기에도 복잡한 K가 증거로 받아들여질 수 있을까하는 의문이 들었다. 게다가 대선 특표율은 방송 3사 출구조사와 별 차이가 없었다. 조작이 있었건 없었건 패배는 확실했다.
대선후 대부분의 문재인 지지자들은 절망하고 관심 껐다. 그러나 전희경교수님을 비롯 몇몇 분들은 대선이 전산조작이라고 믿고 오랜 시간동안 개인 시간을 희생하며 대선관련 데이터를 모아 분석하고, K가 결정적이라고 생각하고 공론화하려고 노력하는데, 그 것을 김어준 총수가 위험을 감수하며 추진해서 만든 게 더 플랜으로 알고 있다.
K가 평균이 1.5인 정규분포를 따르는 방송을 본 모두가 분개했다. 특히 통계전공자들의 분노는 컸다. 아니 어떻게 odds-ratio가 정규분포를… 그리고 개표당시 시민들의 감시는 장난 아니었다. 그러나 K가 여전히 1이 아니면서 정규분포를 따르자, 김총수와 전희경교수님은 하루아침에 궁지에 몰렸다.
아인슈타인의 상대성 이론은 펜과 종이만 사용한 이론이었다. 그 것은 오랜 세월 후에야 개기일식하에 천체관찰로 증명되고, 그제서야 아인슈타인은 노벨상을 받으며 천재의 대명사로 등극한다.
이것도 마찬가지다 정당한 과학적인 의문 제기였다. 단지 이번 대선 데이터가 K는 전산부정의 증거가 될 수 없다고 증명해줬을 뿐이다.
김어준 총수나 전희경 교수님 같은 분들이 자신과 가족을 희생하면서 싸우고 있을때 나를 비롯한 대부분의 사람들은 바쁘다는 핑계로 생업에 열중했고, 학점 관리하고, 스펙이나 쌓았다.
과연 우리가 저 분들을 비판할 자격이나 있을까?
부채의식까지는 아니더라도 최소한 염치라는게 있어야하지않을까한다.
추가) 비율 p는 (0, 1)사이의 값을 갖는다. 그러므로 odds인 p/(1-p)는 (0, 무한대)사이의 값을 갖고, 두 odds의 비율인 odds-ratio 역시 (0, 무한대)의 값을 갖는다. 이런 통계치는 좌우대칭인 정규분포가 아니라, 오른쪽으로 꼬리가 길이지고, 보통 log-변환해서 정규분포에 근사시킨다. 그런데 대선때 나온, 이제 정의가 뭐였는지 기억도 안나는 비율 p는 0, 1 근처도 안오고 범위가 작으니 로그-변환도 안한 odds-ratio 즉 K의 분포가 정규분포와 비슷했다. 이건 나에게 새로운 발견이었다.

첫댓글 저는 무식해서 잘 모르겠습니다.ㅋㅋ 요즘은 주변에 통계 모른다고 합니다. 저런 분들도 있어서 세상이 그나마 좀 나아지나 봅니다.
그분들 아마 통계전공도 아닐꺼예요. 어떻게 저런걸 찾아냈나 모르겠어요.