크리스 위긴스 , 매튜 L. 존스 저자(글) · 노태복 번역
씨마스21 · 2024년 10월 25일
통계학의 탄생에서 알고리즘까지,
데이터과학은 사회의 구조를 어떻게 바꿔놓았는가?
데이터의 역사는 18세기 영어에서 ‘statistics(통계 또는 통계학)’라는 용어가 도입되면서 처음 시작된다. ‘통계학’이란 원래 국가와 국가가 소유한 자원에 관한 지식이었으며, 정량적 탐구 방향이나 예측과 같은 통찰을 얻기 위한 학문이 아니었다. 18세기부터 유럽인들은 정부의 능력을 강화하고 정책에 활용하기 위해 사람들의 죽음, 범죄 및 질병에 관한 수치를 도표로 작성했고, 인간 생활의 더 많은 측면들을 추상적인 수학 용어로 기록했다. 그리고 이와 같은 방대한 데이터를 기록하고 조사하기 위한 새로운 수학적 도구들을 본격적으로 만들어내기 시작했다.
통계학이 인간 사회의 흐름을 보여주는 새로운 학문으로 자리 잡은 데에는 벨기에의 천문학자 케틀레의 연구가 있었다. 그는 천문학자들이 사용하던 분석 방법을 정부의 통계치에 적용하여 인간 사회의 규칙성을 발견하고자 했다. 그리고 더 나아가 그런 규칙성에 의미와 현실을 드러내주는 속성을 부여하며 세계를 이해하는 방식을 극적으로 변화시켰다. 이후 통계 수치를 분석하고 해석하는 방법은 제국주의를 통해 전 세계로 세력을 확대해나가던 영국의 사회적 흐름 속에서 프랜시스 골턴의 연구의 연구로 이어지며 우생학이라는 새로운 학문을 탄생시켰다. 우생학은 수많은 부작용을 낳았지만, 그의 연구 덕분에 인간들의 차이를 이해하는 완전히 새로운 접근법이 나올 수 있었다.
통계는 단지 세계를 표현하는 것이 아니다. 우리가 세계를 범주화하고 인식하는 방식을 변화시킬 뿐만 아니라 남들과 우리 자신을 범주화하는 방식을 변화시킨다. 그리하여 세계를 뒤바꾼다. 18세기 한 천문학자의 연구에서 시작된 통계학은 현재 인간 사회의 모습을 완전히 바꿔놓았다. 오늘날 다양한 사람들에 관한 많은 데이터 덕분에 과학자, 영업자, 군대 및 스파이 등은 모든 개인들을 더 잘 알고, 목표로 삼을 수 있게 되었다. 또한 우리는 다른 인터넷 사용자들과 비교하여 우리의 개성을 정량화하는 세계, 그 정량화된 차이를 이용하여 광고 알고리즘을 통해 우리의 주의를 끌려고 경쟁하는 세계에 우리는 살게 되었다. 따라서 데이터의 역사를 살펴보는 것은 현재 우리 사회의 모습을 정확하고 객관적으로 바라볼 수 있는 시각을 갖게 해줄 것이다.
데이터 혁명, 기계학습과 인공지능의 시대를 열다!
통계학이 데이터에 관한 새로운 학문으로 한 단계 올라서는 계기가 된 것은 인류 역사상의 가장 큰 비극 중 하나인 세계대전이었다. 2차 세계대전의 과정에서 런던 블레츨리 파크에 모인 일군의 학자들은 데이터를 이용해 독일군의 암호를 해독함으로써 연합군이 태평양과 유럽에서 더 나은 정보를 통해서 결정적 승리를 거두는 데 일조했고, 이로써 세계 권력관계를 결정적으로 바꾸었고, 이후 인공지능의 기반이 된 기계학습의 탄생으로 이어졌다.
이 책은 암호해독을 위해 데이터를 군사적으로 적용한 데에서 시작된 디지털 연산의 탄생 과정에서부터 2차 세계대전 이후로 기업과 기술 분야에 데이터를 적용한 사례까지 추적한다. 또한 기업 권력으로부터 국가 권력 그리고 ‘시민 권력’으로 권력이 이동하는 과정에서 디지털화된 개인정보를 보호를 위한 대중들의 요구와 이를 실현하기 위한 노력이 어떻게 진행되고 좌절되었는지에 관한 뒷이야기까지 흥미롭게 그리고 있다. ‘인공지능’ 분야가 탄생하고 사그라들었다 시민, 소비자 및 적국에 대한 데이터가 점점 증가하며 '기계학습'이라는 형태로 다시 부활하게 된 과정을 살펴본다.
한때 인공지능 분야에서 별로 인정받지 못하던 기계학습은 밀레니엄 시대에 와서는 엄청난 성공을 거두면서 인공지능과 이제 서로 바꿔 사용할 수 있는 용어가 되었다. 기계학습 접근법은 1990년대와 2000년대에 와서 학문적 중심지들과 업계 연구실을 훌쩍 넘어서 사용되었다. 산업적 규모의 기계학습을 옹호하고 이를 사업 활동과 정부 활동에 적용하는 이들은 2010년대에 이르러 ‘데이터과학자’로 불리게 되었다. 이 책에서는 과학자에서부터 기자에 이르기까지 누구나 기계학습을 활용할 수 있게 해주는 도구가 개발된 과정에 대한 흥미로운 설명과 함께 오늘날 통신, 과학, 언론 및 정치를 중개하는 인프라에서 중심적 역할을 하게 된 기계학습의 원리까지 이야기하고 있다.
과연 데이터의 주인은 누구인가?
오늘날 ‘데이터’라는 용어는 거의 모든 분야에서 우리를 둘러싸고 있는 데이터 중심의 알고리즘에 기반한 의사결정 시스템을 의미하는 단어로 사용되고 있다. 이 책은 과학기술 사회의 기반이 된 데이터를 둘러싼 지적인 전환 과정과 그와 관련된 새로운 기술적·과학적 역량이 어떻게 개발되었는지, 그리고 누가 그런 역량이나 전환을 지원하고 발전시키고 또는 자금을 지원했는지를 명쾌하게 그려낸다. 아울러 그런 전환을 둘러싸고 어떤 경쟁이 벌어졌으며, 어떻게 이 새로운 역량이 권력을 재조정했는지, 즉 누가 무엇을 할 수 있는지, 권력이 무엇으로부터 오는지 그리고 누구에게로 향하는지를 변화시킨 과정까지 흥미진진하게 풀어낸다.
이 책의 저자들은 현재 기업 권력, 국가 권력과 시민 권력 사이의 긴장 구도와 더불어 역사적 긴장 구도를 분명하게 밝히고 있다. 이를 위해 그런 권력들 사이에서 진리를 확립하기도 하고 경쟁을 조성하기도 하는 데이터의 역할에 초점을 맞추었다. 또한 어떻게 사회가 전반적으로 현재 상태에 도달했는지 보여주고자 하며, 작은 우연의 일치, 주관적인 설계상의 선택 그리고 ‘반드시 그런 식으로 되기 마련인’ 것처럼 보일 뿐인 기만을 밝히려고 했다. 이런 전환과 우발적 사건들을 이해하면, 비슷한 문제들이 과거에 어떻게 해결되었는지를 알 수 있다. 이와 같은 역사적 이해를 바탕으로 우리는 무력한 존재들에게 힘을 북돋워주지만 기때로는 득권에 힘을 실어줄 때가 더 많은 시스템들의 골격을 어떻게 분해하고 재조립할지에 대한 새로운 시각을 얻을 수 있을 것이다.