1장 데이터에서 길을 찾다
데이터를 충분히 오래 고문하면 자백할 것이다.
로널드 코스(Ronald H. Coase). 경제학자
---
데이터 세상의 풍경
나는 오늘도 집을 나서며 자동차에 올라 습관적으로 내비게이션을 켠다. 목적지를 입력하고 길의 방향과 도착시간을 확인한다. 스마트폰 하나면 맛집도 여행지도 쉽게 찾을 수 있다. 지도를 보며 운전을 하다 차에서 내려 지나가던 사람에게 길을 묻던 일은 이제 옛 추억이 되었다.
내가 대학에서 가르치는 학생들을 보면 스마트폰을 거의 손에서 놓지 않는다. 손안에 들어오는 조그만 기기 하나만으로 온라인 수업을 듣고 쇼핑을 하고 SNS를 한다. 나의 대학 시절에는 상상조차 할 수 없었던 모습이다. 디지털 기술이 이 모든 것을 가능하게 해주었다. 우리는 이러한 기술의 혜택을 누리는 동시에 그 기반이 되는 데이터를 끝없이 생산하며 살아간다. 통신 내역, 자동차 동선, 신용카드 소비목록, 별점 평가까지 일상 생활이 실시간으로 데이터가 되고 모두를 위한 정보로 돌아온다.
데이터(data)는 '주어진 것'이라는 뜻의 라틴어 다툼(datum)에서 온 말이다. 비슷한 말로 머테리얼(material, 자료)이 있다. 데이터는 숫자와 문자부터 기호, 영상, 음성, 사진, 표 등 다양한 요소로 구성된다. 데이터에 특정한 의미를 부여하면 정보(information)가 된다. 정보는 '알리다(inform)'에서 기원한 단어다. 따라서 데이터는 넓은 의미에서 '정보가 포함된 자료(informative materials)'이다.
기록한다는 측면에서 고대의 문헌 역시 데이터이다. 인류는 수세기에 걸쳐 막대하고 다양한 기록을 남겨왓다. 역사 실록은 물론 연구서, 토지대장에 이르기까지 모두 데이터이다. 대부분은 기존에 있는 자료를 수집해서 구성하거나 기술한 것이다. 데이터 분석은 문자나 숫자, 기호 등에 들어 있는 정보를 찾고 그 안에서 새로운 가치를 발견하는 것을 말한다.
나는 역사의 몇몇 기록물을 소개하며 그것이 데이터로서 어떤 가치가 있는지 이야기하려 한다. 150여 년 전 지구의 반대편에 살았던 두 사람의 데이터 분석가가 있었다. 당시에는 참고자료도 많지 않았고 그나마 곳곳에 흩어져 있었다. 그들은 어려운 환경에서 자료를 수집하고 체계적으로 분류하여 19세기 사회, 문화 연구에 큰 업적을 남겼다. 그들이 남긴 기록물들은 오늘날의 자료 형태와 다를 수밖에 없지만 데이터로서 시대를 초월한 공통의 속성을 지닌다. 그래서 나는 그들을 '아날로그 시대의 데이터 분석가'라고 부르고 싶다.
김정호는 정말 백두산을 여덟 번 올랐을까?
조선후기 지리학자 고산자 김정호(?-1866)는 대동여지도를 만들었다. 1861년 철종 12년에 제작되었으며 산줄기와 물줄기, 고을과 도로 등 자연과 인문지리 정보를 담아낸 실측지도이다. 지도에서 이동이 가능한 길로 어떤 두 지점을 연결해서 거리를 구한 다음, 약 21만 배 정도 곱하면 현재의 실제 거리와 거의 일치한다. 전체 축척으로 하면 16만 배이고 실제 거리로 환산하면 대략 1:216,000이라고 하니, 완벽에 가까운 한반도의 축소판이다. 참으로 놀랍다. 교통수단도 발달하지 않고 더욱이 혼자 힘으로 자료를 수집하거나 정리하기도 어려웠을 텐데, 어떻게 그 당시에 이런 지도를 만들었을까?
김정호가 지도를 완성하기 위해 백두산을 여덟 번 오르고 전국을 세 번 돌았다는 이야기가 전해진다. 사료에서 확인된 것은 아니지만, 그가 얼마나 힘들게 대동여지도를 만들었는지 짐작할 수 있는 이야기다. 그런데 김정호는 정말 한반도를 여러 번 답사했을까? 데이터 연구자인 나로서는 의구심이 든다. 지도에 표시한 산과 강, 도로의 위치를 그가 직접 파악하고 측량했을까?
이 의문과 관련한 역사 기록을 살펴보자. 김정호는 대동여지도에 앞서 1834년 조선 전도인 <청구도>를 만들었다. 이때 실학자 최한기(1803-1877)도 서문인 <청구도제>에 이렇게 적었다. "나의 벗 김정호는 등관 때부터 지도와 지리지에 깊이 뜻을 두고 오랫동안 찾아 열람하여 장단점을 자세히 살폈고... 한가한 때에 수집한 것을 세세하게 살폈다." 이를 보면 김정호가 답사를 겸해 자료를 최대한 모으고 분석했다는 사실만은 분명해 보인다.
김정호의 작업 과정과 오늘날의 데이터 처리 과정은 근본적으로 다르지 않다. 데이터 분석가는 주어진 문제를 해결하기 위해 이용 가능한 자료를 수집하고 체계적으로 분석하여 의미 있는 가치를 만들어 낸다. 도출한 결과는 새로운 정보로 전환되면서 또 다른 데이터로 활용된다. 대동여지도도 마찬가지였다.
외세의 침략이 빈번했던 당시 강화도 총융사였던 신헌(1810-1884)은 정확한 전국 지도가 필요하다고 생각했다. 그는 김정호에게 비변사와 규장각에 소장된 각종 지도를 수집하여 증정했다고 한다. 김정호는 중앙 관청이 보유한 축척지도와 함께 지역 문화가 담긴 지리서, 각 지방 기관에서 갖고 있던 오래된 전답 문서 같은 방대한 데이터를 살폈을 것이다. 그리고 전국을 누비던 보부상과 짐꾼의 구전 정보까지도 지도를 제작하는 데 활용했을 듯하다.
대동여지도의 전체 크기는 가로 3,8미터, 세로 6.7미터로 조선전도 중에서 가장 큰 축적 지도이다. 인쇄하기 쉽고 대량 보급할 수 있도록 목판으로 제작했으며, 휴대하기 편리하게 분첩절첩식으로 만들었다. 전체 지도를 남북으로 22층으로 나누고 하나의 층을 동서 방향으로 19판으로 나누었다. 그리고 각 층의 판을 병풍처럼 접고 펼 수 있게 연결하여 1권의 접이식 책으로 만들었다. 총 22개의 책을 펼쳐 위아래로 연결하면 초대형 전국지도가 된다.
김정호는 하천과 도로, 도시, 군사시설 등을 기호로 표시하여 쉽게 분별할 수 있도록 표준화 작업을 했다. 도로를 나타내는 선에 10리(4km)마다 방점을 찍어 실제 거리를 추측할 수 있고, 높은 산지는 굵게, 낮은 산지는 가늘게 그려 높이를 계산할 수 있게 했다. 대동여지도는 열악한 제작 환경 속에서 한 인물의 치밀한 데이터 분석을 통해 얻어낸 역사적인 결실이었다.
<해설 대동여지도>의 저자 민병준은 "지명만 1만 1,680개로...고산자가 얼마나 위대한 인문학자이고 화가이며 조각가였는지 대동여지도를 들여다볼수록 감탄스럽다"라며 이것은 단순한 고지도가 아니라 첨단지도라고 극찬했다.
매슈 모리의 항해도
김정호와 동시대에 지구 반대편에 또 한 사람의 비범한 분석가가 있었다. 세계의 항해도를 그린 미국의 해양학자 매슈 모리(Mattew F. Maury, 1806-1873)이다. 그는 해군에 입대하여 장교가 되어 각지를 항해하던 중, 불의의 사로고 장애 판정을 받고 전역할 처지에 놓인다. 하지만 해군장교가 평생의 꿈이었던 그는 군대에서 다른 보직을 찾다가 해도측기창(지금의 해군해양부)에서 근무하게 된다. 그러던 중 창고에 방치되어 있는 방대의 문서와 자료들을 발견하는데, 그것은 당시 선박들이 항해 후에 남긴 기록들이었다. 그는 항해 노선, 시기별 항해 기상, 해류, 해저 암초의 위치, 과거 선박 사고 등 50만 건 이상의 자료를 분류하고 분석한다. 그리고 수년의 노력 끝에 1847년, 대서양의 풍향, 풍속과 해류의 흐름을 담은 항해도를 펴낸다.
그 무렵 대서양은 범선과 증기선을 이용한 해상운송이 급증했고 수많은 군선이 항해하고 있었다. 그러나 제대로 된 항해도도 없었고, 변화무쌍한 날씨에 선박이 자주 침몰해서 막대한 인명 피해와 경제적 손실이 발생했다. 바로 이때 모리의 노력은 빛을 발한다. 항해도로 인해 항해 시간이 단축되고 사고가 줄어들었다. 잦은 해양 사고로 고통 받던 선원들, 해군, 무역업자, 보험사들은 이 새로운 항해도에 환호했다.
매슈 모리의 항해도 역시 데이터 분석을 통한 가치 창출의 전형적인 과정을 보여준다. 목적에 맞는 자료수집, 분류, 분석 새로운 결과 도출, 다시 의미있는 데이터로 통합되는 과정이다. 대동여지도는 외세의 침입에 대비하고 사람들이 편리하게 이동하기 위해, 항해도는 대서양을 안전하게 항해하기 위해 반드시 필요한 것이었다.
항해도로 공익적 가치를 인정받은 모리는 연구에 몰두하면서 연이어 성과를 이루어낸다. 미국 남동부의 멕시코만과 쿠바의 카리브해에서도 항해 사고가 자주 일어났는데, 그는 관련 자료를 분석하며 이 지역에서 대서양으로 흐르는 해류의 존재를 처음 발견한다. 또한 1853년 벨기에 브뤼셀에서 최초의 국제 해양기상회의를 개최하기도 했는데, 이는 현재 세계 기상기구(World Meteorological Organization, WMO)의 전신이 되었다.
무엇보다도 매슈 모리의 가장 중요한 업적은 최초의 근대 해양학 교과서인 <바다의 자연, 지리학(The Physical Geography of the Sea)>에서 대서양 해저케이블 아이디어를 제안한 일이다. 훗날 전 세계의 전화와 인터넷 통신망을 구축할 때 항해도와 해저케이블의 아이디어는 중요한 지침이 되었다. 그는 세계 곳곳을 직접 가보지 않고도 항해 기록을 분석함으로써 바닷길을 개척한 것이다. 오늘날 매슈 모리는 해양학의 아버지라고 불리며 대륙 간 항해시대의 길을 열어준 인물로 꼽힌다.
20세기의 위대한 코호트 연구
20세기에 들어와 인류는 제1,2차 세계대전이라는 비극을 맞이한다. 전쟁은 평범한 사람들에게 어떤 영향을 주었을까. 지금도 그 암울한 역사가 이어지고 있을까. 이 질문에 응답하는 데이터 연구 사례가 있다. 거의 한 세기에 걸쳐 특정 집단을 관찰하며 전쟁의 이면을 파헤친 연구다.
코호트(cohort)는 무리나 집단이라는 뜻으로, 특정 기간에 태어나거나 특정 지역에서 공통된 인자를 가진 집단을 말한다. 코호트 연구는 특수한 상황에 놓인 집단을 선택하여 현재와 미래의 변화 양상을 장기적으로 추적 조사하는 것이다. 1946년 3월, 영국 찰천햄에서 패트리셔 멜번이라는 사람이 태어났다. 다음 날 런던 근처 햄튼 코트에서 데이비드 워드가 태어난다. 당시 보건 담당 직원은 맬번과 워드처럼 그해 3월에 태어난 아기들의 산모를 찾아가 여러 가지 질문을 하고 답을 기록했다. 담당자들은 인터뷰 방식으로 제2차 세계대전 중에, 그리고 그 직후에 영국과 스코틀랜드, 웨일스에서 태어난 약 1만 7,000여 명의 산모와 신생아들의 신상과 건강 관련 정보를 수집했다. 여기에는 부모의 직업과 생활수준, 가임기의 식생활, 신생아의 몸무게 등이 포함되었다.
아이들은 자라 청소년기를 지나 성인이 되고, 중년에 이른다. 1946년에 태어난 멜번과 워드도 이제는 노인이 되었다. 이들은 태아일 때부터 죽음을 맞이할 때까지 역사상 가장 오래 진행된 생애 연구에 참여했다. 연구자들은 긴 시간 동안 그들을 계속 만나며 중요한 신상 정보를 수집했다. 제2차 세계대전과 같은 환경적 요인부터 혈압이나 유전자 등 생물학적 요인까지 아우른 생생한 정보였다. 이 코호트 연구는 그 방대함과 현장성에서 독보적인 가치가 있다고 평가받는다. 이 데이터를 기반으로 지금까지 전 세계에서 600편 이상의 논문이 발표되었는데, 가임기 영양 상태와 출생아의 몸무게, 건강 상태, 이들이 성장하면서 겪는 다양한 질병의 인과관계가 밝혀진다.
미국의 병리학자 에즈라 수서(Ezra Susser(1952-) 교수는 이 연구를 "거의 유일하게 전체 코호트의 전 생애를 추적하는, 역학의 역사에서 특이하고 새로운 장을 여는 연구로 지금도 끝나지 않았다"라고 언급했다. 프로젝트의 한 책임연구원은 이 코호트에 대해 "미친 짓이었으며 야심찬 프로젝트"라고 회고했다. 그는 수만 명을 평생에 걸쳐 추적 조사한 끝에 얻은 결론을 간략하게 말했다. "궁극적으로 성인의 상태는 출생 초기로부터 큰 영향을 받는다."
2000년, 암스테르담 메디컬 센터의 테사 로즈붐(Tessa Roseboom, 1973-) 교수는 이 데이터를 활용하여 흥미로운 연구결과를 발표한다. 제2차 세계대전이 끝나가던 1944년 겨울, 독일군은 네덜란드로 가는 모든 식량 공급을 철저히 차단했다. '배고픈 겨울(the Hunger Winter)'이라 불린 이 기간에 수만 명이 기근으로 사망하는 참사가 일어난다. 로즈붐은 전쟁 중에 태어난 아이들을 추적 조사했고, 저체중 신생아들이 비만, 고혈압, 당뇨, 심장 질환 등 성인병에 걸릴 확률이 더 높다는 사실을 발견한다. 영양을 충분히 공급받지 못한 태아가 태어난 뒤에도 굶주릴 거라고 예측하여 지방세포에 열량을 축적하며 성장하기 때문이었다. 로즈붐의 연구는 태아에게 각인된 유전 정보들이 출생 후 건강에 영향을 미친다는 '태아 프로그래밍'이론에 근거하고 있다. EBS의 다큐멘터리 <퍼펙트 베이비(Perfect Baby)>는 태아 프로그래밍(fetal programming)을 소재로 하고 있는데, 해당 프로그램 인터뷰에서 로즈붐이 한 말은 깊은 여운을 남겨 준다. "제2차 세계대전은 70년 전에 일어났지만, 그때 태어난 사람들은 아직도 전쟁의 영향을 받고 있다."
데이비드 바커와 태아 프로그래밍 이론
태아 프로그래밍 이론을 정립한 사람은 영국의 질병역학자 데이비드 바커(David Barker, 1928-2013)이다. 바커 연구팀은 제2차 세계대전 중에 아기를 출산한 약 1만 3,000명 이상의 산모와 자녀들을 추적조사했다. 그리고 전쟁으로 혹독한 경제난을 겪고 있던 영국에서도 가장 빈곤한 지역인 웨일스에서 태어난 아이들이 성장하면서 심장병 발병률이 가장 높게 나타난다는 사실을 발견한다.
기존에 심장병은 보통 비만과 운동 부족 때문에 생긴다고 알려져 있었다. 그런데 식량 공급이 거의 끊긴 지역에서 발병률이 높다는 사실은 무엇을 말하고 있을까? 이에 대해 데이비드 바커는 이런 가설을 내 놓았다. "작게 태어났다는 것은 산모의 영양 상태가 좋지 않았다는 뜻이다. 우리는 심장 질환의 원인을 임산부의 자궁 속에서 찾아야 할지 모른다." 1980년에 발표한 바커 가설(Barker Hypothesis)은 이후 여러 연구를 통해 태아 프로그래밍 이론으로 발전한다.
2014년 <사이언스>는 육아와 태아 프로그래밍을 주제로 특집호를 발간했다. "작게 낳아서 크게 키우자"라는 말도 있었다. 산모들이 자연 분만을 쉽게 하려고 임신 중 다이어트가 유행하던 시기였다. 해당 특집호에서는 태아 프로그래밍 이론을 중심으로 엄마가 지나치게 적게 먹거나 반대로 폭식을 하게 되면 태아가 어떤 스트레스를 받는지, 아이가 성장하는 과정에 어떤 영향을 미칠 수 있는지를 다각적으로 분석했다. 연구 결과는 충격적이었다. 임신 중에 다이어트를 하면 저체중아를 출산할 확률이 높아지고, 그 아이들은 정상 체중으로 태어난 아기들에 비해 비만과 당뇨, 심장병에 걸릴 가능성 또한 높아진다는 것이었다. 태아 프로그래밍 이론은 20세기 세계대전이라는 재난이 가져온 '히든 이펙트(hidden effect)' 즉, 숨겨진 부작용이 무엇인지를 극명하게 보여준다.
재난은 인간에게 생각지도 못했던 부작용을 일으키고 시간이 지나면서 서서히 그 정체를 드러낸다. 히든 이펙트는 이 순간에도 진행 중일지 모른다. 국내 질병통계 자료에 따르면 우리나라에서 당뇨병이 폭발적으로 증가한 시기는 1980-1990년대라고 한다. 이를 보면 당뇨병 한자 대부분이 1940년대 해방 이후부터 1950년대 6.25전쟁 무렵에 출생했다는 사실을 알 수 있다.
우리 몸은 섭취한 음식을 포도당 형태로 변화시켜 에너지로 사용한다. 췌장에서 만들어지는 인슐린은 포도당이 조직 세포에 흡수될 수 있도록 돕는 역할을 한다. 산모가 췌장에 영양분을 충분히 공급하지 않으면, 아기는 췌장에 문제가 생기고 당뇨병의 가능성을 가지고 태어난다. 국가 경제가 어려웠던 시기에 태어난 아기들의 상당수가 훗날 당뇨병을 앓고 있었다. 재난이 어떤 히든 이펙트를 가져올 수 있는지 제대로 보여주고 있다. 이것은 오늘날에도 여전히 일어날 수 있는 현상이기도 하다.
우리나라 보건의료 빅데이터 개방시스템에 게시된 국민 관심 질병통계에 따르면 2000년대 이후 당뇨병 환자가 꾸준히 증가하는 추세다. 2015년 이후 20대 당뇨병 환자가 기존에 비해 빠른 속도로 증가했는데, 특히 20대 여성의 경우 30대 이상보다 더욱 빠른 증가 추이를 보였다. 20대 당뇨병 환자들은 1990년대 후반 IMF 금융위기 시기에 태어난 아이들이다. 수많은 회사가 파산하고 실업자들이 쏟아진 그때, 산모와 아기도 영향을 받았을지 모른다. IMF와 20대 당뇨병 환자 수가 인과관계가 있다고 단정할 수는 없지만, 충분히 개연성이 있다는 생각이 든다.
캐나다의 정신의삭자 수잔 킹(Suzanne King(1964-)은 재난 상황에서 태어난 아기들의 스트레스가 일생의 건강에 미치는 영향을 분석했다. 1998년 캐나다 몬트리올에 얼음 폭풍이 불어 닥쳤다. 유례없는 이상 기후에 전기와 수도가 끊기고 식료품과 생필품이 제대로 공급되지 못했다. 시민들은 길게는 40여 일을 대피소에서 보내야 했다. 수잔 킹은 얼음 폭풍 시기에 임신한 여성들과 태어난 아이들을 15년에 걸쳐 추적 조사했다. 그리고 산모의 스트레스가 클수록 신생아의 체중에 영향을 미치며, 그 아이가 5세가 되었을 때 체질량 지수와 비만 위험도가 높아졌다고 밝혔다. 아이들은 건강상의 문제뿐만 아니라 평균 지능지수도 떨어졌다. 또한 아버지가 외상 후 스트레스 장애(Post-traumatic stress disorder, PTSD)를 겪는 경우 아이들이 영향을 받지 않았지만, 어머니가 PTSD를 겪고 있으면 아이들도 같은 증상을 보일 확률이 높았다.
팬데믹이 가져오는 히든 이펙트
코로나 19로 산모들이 스트레스를 받는다면 이 시기에 태어난 아이들이 성장하면서 건강에 어떤 문제를 겪게 되지 않을까? 코로나 팬데믹이 개인의 정신건강에 미치는 영향을 분석한 이은환의 연구 <코로나 19세대, 정신건강 안녕한가>(2020)를 보면 감영병으로 인한 국민의 스트레스 지수는 3.7이다. 이는 메르스 사태 지수(2.7)의 1.4배이고 세월호 사건의 지수(3.3)를 상회하는 수준이다. 더 심각한 것은 이런 스트레스 정도가 일회성에 그치지 않고 코로나 19 발병이래 지속되고 있다는 점이다. 불안, 우울, 분노 등 정신적 고통이 전염병처럼 번지는 멘탈데믹(mentaldemic) 현상이 함께 일어나고 있기 때문이다.
2021년 초, 통계청이 발표한 2020년 인구 동향에 따르면 통계 작성을 시작한 1981년 이해 처음으로 한 해의 출생아 수가 30만 명 아래로 떨어졌다(272,400명). 연간 사망자 수도 출생아 수보다 많아졌다. 최초로 자연 인구 감소가 시작된 것이다. 이러한 흐름은 2021년에도 이어져 이전 해보다 출생아 수가 5%이상 줄어들었다. 코로나 19와 함께 출생아 감소 속도도 빨라지고 있는 듯하다.
전쟁이나 감염병은 직접적인 부작용 뿐만 아니라 보이지 않는 부작용도 일으킨다. 앞서 말한 재난이 가져오는 히든 이펙트이다. 시간이 흐른 뒤 숨은 부작용이 바깥으로 드러나면 사회는 더 큰 위기를 맞게 될지 모른다. 코로나로 인한 두려움과 스트레스가 우리의 정신과 신체 건강에 장기적으로 어떤 영향을 줄까? 데이터 분석가들은 이 질문에 답을 찾는 사람들일 것이다.
김정호와 매슈 모리, 테사 로즈붐, 데이비드 파커, 그리고 수많은 코호트 연구자에 이르기까지 이들은 데이터를 기반으로 미래를 여는 길을 찾았다. 인류는 앞으로 어떤 길을 가게 될까? 어쩌면 그 길을 열어줄 천재가 등장하기를 기대할 수도 있다. 그런데 오늘날은 개기인이 만들어내는 정보로 작동하는 데이터 세상이다. 이제 완전히 새로운 것은 드물다. 새로운 생각과 기술은 수많은 이들의 경험과 노력, 연대 속에서 이루어진 결과들이다.
문화심리학자 김정운은 "창조는 편집"이라고 말하며 '에디톨로지(editology)'라는 개념을 소개했다. 그는 주어진 데이터들을 이용한 편집의 힘을 강조했다. 흩어져 있는 많은 자료를 통합적으로 분석하여 가치 있는 새로운 해결책을 찾는 능력이 현대인들에게 가장 중요하다는 것이다. 나는 어려운 상황에서 자료를 수집하고 분석하여 위대한 가치를 만들어낸 데이터 분석가들에게 경외심을 느낀다. 특히 열악한 환경에서 이루어낸 결과이기에 그 울림이 더하다.