|
모두 거짓말을 한다. EVERYBODY LIES
저자 ‘세스 스티븐스 다비도위츠’ Seth Stephens-Davidowitz는 하버드대학교 경제학과 박사과정에서 특정 검색어의 추세를 연구하는‘구글트랜드’를 연구해 미국 대선과 ‘브렉시트’를 데이터로 예견했다.
이 책의 제목은 ‘모두 거짓말을 한다.’이다. 여기서 의미하는 바는 사람들이 자신의 모습을 더 낫게 보이게 하기, 위해서 친구에게, 설문조사에, 스스로 거짓말을 한다는 것이다. 하지만 세상 역시 오해의 소지가 있는 불완전한 데이터를 제시하는 방법으로 우리에게 거짓말을 한다. 세상은 우리에게 성공한 유명대학 출신을 보여주지만, 성공한 소위 ‘지잡대’로 칭하는 대학의 졸업생을 보여주지 않는다. 그래서 우리는 명문대에 가는 것이 유리하다고 판단하게 된다.
2016년 공화당 예비선거에서 여론조사 전문가들은 모두 도널드 트럼프가 당선될 확률은 없다고 결론 내렸다. 트럼프는 여러 소수집단을 모욕했다. 사람들은 웹을 돌아다니며 남기는 디지털 발자국은 사람들이 정말로 원하는 것이 무엇인지, 내가 무슨 일을 할지, 내가 누구를 투표할지를 남긴다. 저자는 2012년 ‘구글’ 검색을 개발해 인종주의 지도를 만들어 오바마의 경선결과를 정확하게 평가하는데 이용했다. 그리고 공화당 예비선거에서 ‘도날드 트럼프’ 지지율 지도를 만들었다. 지도는 공화당 트럼프의 투표자 지도와 거의 유사하다. 사람들은 신경과민인 도시인의 모습이 있다. 불안감의 증상이나 교육수준이 낮고 소득수준이 중위인 곳, 대부분이 농촌지역에 사는 곳에서 등장한다. 유권자들은 언론조사에 자기의사를 표출하는 대답을 대부분 숨기지만 자기가 지지하는 후보의 이름을 먼저 검색하는 것을 저자가 흔적으로 파악한 것이다.
자연 실험을 솜씨 좋게 이용하면 세상의 데이터를 정확하게 이해 할 수 있다. 무엇이 유용한지 그렇지 못한지 찾아낼 수 있다. 세상이 디지털화되면서 이용 가능성이 커지고 있는 유형의 대규모의 포괄적인 데이터세트가 필요하다. 우리는 자연이 언제 실험을 할지 모르기 때문에 결과를 측정하기 위한 소규모 설문 조사를 시작할 수 없다. 이 개입에서 배움을 얻으려면 이미 존재하는 데이터가 많이 필요하다. 우리에게는 이 데이터가 필요하다.
직감은 불완전하다. 왜 우리는 경험이 많은 할머니나 할아버지의 말을 경청할까? 예로 33세의 손자가 추수감사절에 몇 년째 파트너 없이 왔을 때, 다들 저마다 의견을 내놓는다. 누이는 노총각 동생에게 4차원의 여자가 필요하다 말한다. 남동생은 말도 안 되는 소리 마! 여자가 정상이어야 형이랑 균형이 맞지. 어머니는 아들이 사차원은 아니라 말하고, 아버지는 아들이 사차원인 것이 맞는다고 말한다. 그러자 88세의 할머니는 손자에게는 참한 여자가 필요하다. 화려한 외모는 안 되고, 똑 부러지는 아이여야 해, 사람과 잘 어울리고 사교적인 여자여야 잘 살 수 있다. 유머 감각도 있어야 할 게야, 우리 손자가 유머 감각이 꽤 있으니까. 말을 한다. 왜 할머니의 말에 귀 기우리고 말을 존중하는 것인가? 이유는 할머니가 많은 경험으로 빅 데이터를 가지고 있기 때문이다. 작가는 사람들이 데이터 과학에 관해 가지고 있는 신화를 깨트리고 과학이 무엇인지를 알리고 싶어 한다.
작가는 ‘마이크로소프트’ 검색엔진인 ‘빙bing’을 쓰는 익명의 사용자 수만 명의 데이터를 이용했다. 췌장암 진단을 받았다고 보고한 소수의 사용자들과 그렇지 않은 사람들과 비교를 했다. 즉 몇 주, 몇 달 동안의 어떠한 증상이 췌장암 진단을 받게 될 징조인지 확인하는 것이다. 결과는 놀라웠다. 허리 통증과 피부 황달이 췌장암의 징후로 들어났다. 허리 통증을 검색한 것만으로는 췌장암일 가능성이 낮았다. 소화불량이나 복부 통증에 대한 검색은 췌장암의 증거였지만, 복부 통증이 없는 단순한 소화불량을 검색한 사람은 췌장암일 가능성이 낮았다. 연구자들은 병에 걸리지 않았는데도 걸렸다고 잘못 판단하는 ‘위양성false positive’이 5~15%에 달하는 사례를 확인할 수 있었다.
데이터를 보는 새로운 눈으로 ‘구글’ 엔지니어들은, 의료뿐 아니라 다양한 분야에서 분석 유형을 실험할 수 있는 서비스인 ‘코릴레이트’를 만들었다. 예로 주택 가격을 추적해보자. 주택 가격이 오를 때 미국인은 ‘80/20 융자’,‘주택 건축업자’, ‘평가율’, 같은 문구를 검색한다. 주택 가격이 떨어질 때는 ‘쇼트 세일(남은 융자액보다 적은 가격을 받고 부동산을 처분하는 일)절차’, ‘언더워터 모지기(융자액이 부동산 가치보다 높은 상황)‘, ’융자 구제‘ 등을 검색한다.
사람들은 ‘구글’에 무엇을 검색하는지 보고 얼마나 많은 사람들이 실업 상태인가도 판단 할 수 있을까? 저자는 2004년부터 2011년까지의 미국 실업률을 ‘구글 코릴레이트’에 넣었다. 그 시기 엄청난 량의 검색어 중 무엇이 실업률과 가장 긴밀한 연관이 있을까? ‘고용센터’는 아니었다. ‘새 일자리’도 아니었다. 이 기간 동안 가장 인기 검색어는 ‘슬럿로드 slutload’였다. 가장 많이 찾은 검색어가 포르노 사이트였던 것이다. 일자리를 잃은 사람들이 시간은 많을 테고, 그들 대부분 집에 처박혀서 혼자 무료한 시간을 보냈을 것이다.
이러한 사례는 빅 데이터가 가진 첫 번째 힘인 데이터의 자격에 관한 새로운 상을 분명하게 보여준다.
신체 데이터의 예는 마구간에 보자. 2013년 보통보다 큰 몸의 적갈색 말 한 마리가 있었다. 그 해 낙찰된 한 살 난 말 1만 마리 중 하나이고, 8월에 열린 ‘패시그-팁톤 이어링 세일’에 나온 152마리 중 한 마리다. 이름 없이 마구간 번호인 85번 말이다. 혈통도 좋지 않았고 아비말의 경주 성적도 좋지 못했지만, 85번 말은 외모도 별로지만, 미심쩍은 발목에 긁힌 자국이 있었다. 당시 소유주인 이집트 맥주계의 거물 ‘아메드 자얏’은 이 말을 팔고 다른 말을 사기 위해 뉴욕에 왔다. 마주들은 전문가를 고용하여 자문을 받는다. ‘자얏’의 전문가들은 EQB라는 작은 기업의 사람이고, 책임자는 말 사육사 출신이 아닌, 하버드대학교에서 학위를 받은 ‘제이프 세이더’라는 특이한 인물이었다. 그는 151마리 중 어떤 말도 개비할 만한 것이 없으므로 추천을 할 수 없다고 말하면서, 절대로 85번 말을 팔지 말라고. 조언한다. 어쩌면 10년 내에 찾아볼 수 없는 최고의 말이라 칭찬을 한다. 다음날 85번은 ‘인카르드 블러드스특’이라는 한 남성에게 3억 원에 팔린다. 이 남성은 ‘자얏’의 가명이었다. 경매 규칙에 따라 내 놓은 말은 판매를 취소할 수 없기에 자신이 다시 산 것이다. 18개월 후 85번 말은 30년 만에 탄생한 ‘3관마 Triple Crown’에 올랐다.
당시 64세의 ‘제이프 세이더’는 어찌 명마를 발견한 것인가? 그는 먼 길을 돌아 지금의 일을 하고 있었다. ‘세이더’는 하버드대학교를 우등으로 졸업한 ‘파이 베타 카파Phi Beta Kapp’회원이었고 법학과 경영학 학위도 받았다. 26세에 투자 분석가로 은행에 있었는데 그는 田園과 말이 그리웠다. 그는 정장을 입고 은행가로 뉴욕에 살 사람은 아님을 깨달았다. 회사를 그만두고 그는 낙향하여 텍스타일에서 스포츠 의학까지 다양한 경험을 하다 열정을 가진 분야인 경주마의 성패를 가르는 일에 모든 시간을 바치기 시작한다. 경마에 관한 수치는 주먹구구다. 두 살 난 말 천 마리 중 5마리만 우승을 하고 995마리는 어찌되나? 1/3은 부적격 경주마로 포기하고,1/3은 경기 중 부상을 입는다. 그리고 나머지 1/3은 ‘바틀라 Bartleby증후군’이라 부를 만한 증상을 일으킨다. 즉 말들은 경마 경력을 쌓은 뒤 얼마 되지 않아 뛰고 싶지 않으면 뛸 필요가 없다는 점을 깨닫는다. 경주 초반에 잘 달리다가 어느 지점에서 속도를 늦추거나 멈춘다. 발목과 관절에 통증을 느끼면서 빨리 달릴 필요가 어디 있단 말인가? 이런 성공 확률이 낮은데서 어찌 말을 고를까? 말 전문가는 말의 혈통에 대해 줄줄이 읊는다. 그러나 혈통은 중요하지만 성공마의 일부일 뿐이다. 경주마의 ‘에이젠트’들은 말의 걸음걸이와 외형을 분석한다. 그러나 ‘세이더’는 전통적인 방법으로 말을 고르지 않았다. 그는 말의 콧구멍의 크기를 재서 수익에 관한 데이터를 만들었다. 그리고 그는 말의 내장의 크기를 측정하여 심장의 크기, 좌심실의 크기가 말의 성공에 주요한 요인이자 변수임을 알아냈다. 그리고 말의 비장이 작은 말은 돈을 벌지 못함을 알아냈다. 말이 질주하는 비디오를 디지털화 해서 경주에서 성공 관계를 알아냈다. 두 살 난 말 중 200미터를 달리고 나서 쌕쌕 소리를 내는 말은 절대 성공하지 못한다는 것을 알아냈다. 그래서 조수를 시켜 소리가 나는 말은 걸러냈다. 1000마리 중 ‘세이더’의 시험을 통과하는 말은 대략 열 마리다. 그는 혈통은 싹 무시했다. 85번 말의 데이터를 보여주는데 좌심실 백분위수 99.61로 심장과 비장이 다른 장기보다 유난히 컸다.
‘뉴욕 메츠’는 1962년과 1978년생들 사이에서 인기가 높다. ‘메츠’는‘월드시리즈’에서 1969년과 1986년에 우승했다. 그때 이 연령대는 일고여덟 살이었다. 여기서 성인이 돼도 좋아할 야구팀을 굳히는 중요한 시기가 여덟 살 전후라는 것을 알 수 있다. 전반적으로 5~15세 아이들을 팬으로 끌어들이는 데 가장 중요한 시기다. 중요한 시기에 만들어진 견해는 평생 지속된다. 1941년에 태어난 미국인과 그 후 10여년 뒤에 태어난 미국인을 비교해 보자. 1941년생은 공화당 정치인 ‘드와이트 D.아이젠하워’의 재인기간에 성년이 됐다. 1960년 초에 이 세대는 30대가 아니라도 공화당 쪽에 섰다. 나이가 들어도 공화당을 지지하는 것이다.10년 후에 태어난 세대는 민주당 존 F.케네디가 활동하던 시기에 성년이 됐다. 그리고 그들은 평생 민주당을 지지한다.
가난한 부모를 둔 사람이 부자가 될 가능성은 미국일부지역이 어느 선진국보다 높다. 반대로 일부 지역은 가난한 아이가 성공할 확률이 어느 선진국 보다 낮다. 즉 미국은 기회의 땅인가? ‘에스’도 ‘노’도 아니다. 신앙심이 깊고 범죄율이 낮은 지역이 더 나은 기회를 제공한다. 흑인이 많은 지역은 확률이 낮다. 싱글 맘이 많은 지역도 불리하다. 이는 가난한 아이들에게는 또래가 중요함을 보여 준다. 친구들의 환경이 어렵고 기회가 많지 않은 경우, 빈곤에서 탈출하기가 더 어려워 질 수 있다.
부자도 죽음을 피할 수는 없다. 소득 상위 1%에 드는 미국여성은 소득 하위 1%에 드는 여성보다 10년을 더 산다. 남성의 경우 격차는 15년으로 벌어진다. 흥미롭게 사는 지역은 별로 영향이 없다. 돈이 많을 때 기대수명은 여성이 89세, 남성이 87세다. 부유한 사람은 건강한 습관을 들인다. 평균적으로 그들은 운동을 더 많이 하고 더 건강한 식사를 하며, 담배를 덜 피우고, 비만에 시달린 확률이 낮다. 부유한 사람은 러닝머신과 유기농 ‘아보타도’를 사고 요가 수업에 등록할 여유가 있다. 미국 어디서나 이런 것들을 누릴 수 있다. 부유한 사람이 많이 사는 도시일수록 가난한 사람들이 더 오래 산다. 그 이유는 부자의 행동방식이 벋어나가 가난한 사람들도 건강한 생활을 하게 되기 때문이다.
빅 데이터로 하지 말아야 할 것도 많다. 이는 윤리적 문제가 많이 발생한다. 권력화 된 기업에서 생기는 위험은 돈을 빌린 사람의 변제 능력을 예측하는 방법을 찾기 시작했다. 전체적으로 13%의 차용인이 채무를 이행하지 않는다. 그들이 사용하는 문구는 약 10개를 사용한다. 하느님, 저금리, 세후, 약속, 갚음, 병원, 부채가 없는, 졸업, 최소지불, 감사 등인데 공손하며 신앙심을 들어내는 사람이 채무를 변제할 가능성이 높다고 생각하나 실제는 그렇지 않다는 것이다. 위에 적은 10개의 단어 중 변제 가능성이 낮은 사람들이 사용하는 단어가 하나님, 갚음, 병원, 약속, 감사이다.
채용에 관해 알아보자. 고용주가 입사지원사를 살필 때 고용주의 비방이나 고용주의 비밀을 찾는 것은 윤리적인 문제는 없으나, 알코올 문제가 들어난 사람이나 무례한 기표를 찾는다면 어떨까? ‘캠브리지’와 ‘마이크로소포트’의 연구원들이 미국 페이스 북 사용자 58,000명을 상대로 성격과 지능에 관한 실험을 했는데, ‘좋아요’가 IQ, 외향성, 성실성과 관계가 있다는 것을 발견했다. 예로 ‘모차르트’, ‘뇌우’, ‘컬리 프라이’를 좋아하는 사람은 IQ가 높은 경향이 있다.
반대로 ‘할리 데이비슨’ 오토바이, 컨트리 뮤직 그룹 ‘레이디 엔터벨룸’ ‘나는 엄마가 좋아요’페이지를 좋아하는 사람은 IQ가 낮은 경향이 있다. 이런 것들이 나도 모르는 사이에 평가에 반영된다면 불합리하다.
더 나은 데이터 역시 다른 형태의 차별 즉 경제적 가격차별을 부른다. 기업이 제품이나 서비스에 얼마의 가격을 매겨야 할지를 알아내려고 노력한다. 대부분 하나의 가격을 정하고 똑같이 지불한다. 그러나 영화관에서 학생이나 노인보다는 경제력이 좋은 중년 고객에게 더 많은 돈을 받는다. 항공사도 마지막으로 표를 사는 사람에게 돈을 더 많이 받아내는 것도 같은 이유다.
개인차원의 데이터를 이용하는 데 매우 신중해야 하는 이유는 윤리적 차원을 넘어선다. 데이터 과학에 있어서 시의 행동을 예측하려하는 시도와 개인의 행동을 예측하려 하는 시도 사이에는 큰 격차가 있다. 자살 문제를 보자 미국에서 ‘구글’에서 약 350만 건이 이뤄진다. 자살 관련 검색이 매달 100명 당 한 개 이상 존재한다는 것이다. 그러나 미국에서 자살은 월평균 4000건 정도다.
또 2015년 ‘이슬람포비아’ 검색을 보면 미국에서 이슬람교도를 죽이자는 검색어는 약 12,000건이었다. 증오범죄자로 이슬람교도를 죽인 것은 12건이었다.
2019.04.05.
모두 거짓말을 한다.
세스 스티븐스 다비도위츠 지음
더 퀘스트 발행