빅 데이터
위키백과, 우리 모두의 백과사전.
빅 데이터(영어: big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합[1] 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술[2] 을 의미한다
위키백과의 편집 현황의 시각화 자료(IBM 작성). 수 테라바이트의 용량을 지닌 위키백과의 텍스트 및 이미지 자료는 빅 데이터의 고전적 사례에 속한다.
전세계 저장 매체 용량의 증가 및 디지털화.(출처: 워싱턴 포스트)
다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.
이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있다. 빅데이터는 수많은 개인들의 수많은 정보의 집합이다. 그렇기에 빅데이터를 수집,분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 수도 있는 것이다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수 있다.
세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정[3] 했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정[4] 하는 등 최근 세계는 빅 데이터를 주목하고 있다.
가장 작은 데이터 단위는 0 혹은 1을 나타낼 수 있는 비트(bit)며, 8개의 비트가 모여 1바이트(byte)가 된다. 이후 1,024를 곱할 때마다 킬로바이트(KB) · 메가바이트(MB) · 기가바이트(GB) · 테라바이트(TB) · 페타바이트(PB) · 엑사바이트(EB) · 제타바이트(ZB) 등의 순으로 커진다.
이제 인류는 ‘big data(빅데이터)’의 시대로 접어들었다. 『조선일보』(2012년 5월 10일)는 “작년에 전 세계에선 이틀마다 5엑사바이트(EB)의 정보가 생산됐다고 한다. 1EB는 10의 18승(乘) 바이트이지만, 감(感)이 잘 안 온다. 쉽게 말해서 인류가 역사 이래 2003년까지 쏟아낸 정보량을 이틀 만에 쏟아냈다는 얘기다. IBM사 계산이 그렇다”라며 다음과 같이 말했다.
“우리가 트윗하고, 문자 메시지 보내고, 온라인에서 물건 사고, 스마트폰으로 위치 정보를 보낼 때마다 생성되는 이 막대한 디지털 정보는 모두 어딘가에 저장된다. 작년 5월 매킨지글로벌연구소(MGI)가 이런 ‘빅데이터(big data)’를 ‘혁신과 경쟁의 넥스트 프런티어(next frontier)’라고 선언한 이래, 국내외 기업들은 ‘빅데이터’ 열기에 싸여 있다. 점(點)으로만 모여 있던 정보들을 꿰어서, 개인과 집단의 행동 패턴을 미리 읽어내는 기업이 시장을 지배한다는 얘기다.”
big data(빅데이터)는 데이터의 생성 양 · 주기 · 형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집 · 저장 · 검색 · 분석이 어려운 방대한 데이터다. 컴퓨터와 처리기술이 발달함에 따라 디지털 환경에서 생성되는 빅데이터와 이 데이터를 기반으로 분석할 경우 질병이나 사회현상의 변화에 관한 새로운 시각이나 법칙을 발견할 가능성이 커졌다. 일부 학자들은 빅데이터를 통해 인류가 유사 이래 처음으로 인간 행동을 미리 예측할 수 있는 세상이 열리고 있다고 주장하기도 하며, 이를 주장하는 대표적인 학자로는 토머스 멀론(Thomas Malone) 미국 매사추세츠공과대학 집합지능연구소장이 있다.
빅데이터는 ‘사회물리학(social physics)’을 탄생시켰다. 미국 MIT 데이터 과학자 알렉스 펜틀런드(Alex Pentland)는 『창조적인 사람들은 어떻게 행동하는가: 빅데이터와 사회물리학(Social Physics: How Good Ideas Spread-The Lessons from a New Science)』(2014)에서 다음과 같이 말한다.
“사회물리학은 우리가 세상을 통해, 가령 전화 통화나 신용카드 거래 내역, GPS(위성항법장치) 지역설정을 통해 흘리고 다니는 디지털 빵가루(digital bread crumbs) 속에 담겨 있는 인간들의 경험과 아이디어 교환 패턴에 대한 분석 작업에 바탕을 두고 있다. ······디지털 빵가루를 가지고 패턴을 분석하는 작업을 우리는 현실 마이닝(reality mining)이라고 부르는데, 이를 통해 한 개인의 정체성에 관해 엄청나게 다양한 이야기를 들려줄 수 있다.”
영국 옥스퍼드대학 교수 빅토어 마이어 쇤베르거(Viktor Mayer-Schönberger)는 빅데이터가 “스마트폰이 생긴 것과 차원이 다른 인류 역사의 변곡점”이라고 주장한다. 그는 빅데이터가 유행어에 지나지 않는다거나 실체가 없다는 등의 시각을 반박한다. 그는 “새로운 기술이 늘 그렇듯이 빅데이터도 분명히 실리콘밸리의 악명 높은 ‘하이프 사이클(hype cycle, 과대 광고 주기 · 새로운 기술이 처음 소개될 때는 과잉 기대가 형성되었다가 곧 실망과 관심 감소로 이어지지만, 이후 시간이 흘러 시장이 성숙하면 해당 기술이 재조명받으면서 본격 보급되는 현상)’을 겪게 될 것입니다”라면서 다음과 같이 말한다.
“빅데이터가 온갖 잡지 표지를 장식하며 산업 콘퍼런스의 주인공이 되었다가 이런 트렌드는 언제 그랬냐는 듯 사라지고 데이터에 의해 우후죽순처럼 생겨났던 수많은 신생 기업은 곤란에 처할 것입니다. 하지만 이런 열광도, 저주도 지금 일어나는 현상을 굉장히 잘못 이해한 결과입니다. 망원경이 우주를 이해할 수 있게 했고, 현미경이 세균을 알려준 것처럼, 많은 데이터를 수집하고 분석하는 이 새로운 기술도, 새로운 방식으로 세상을 이해할 수 있게 도와줄 것입니다.”
미국 밥슨대학(Babson College) 교수 토머스 대븐포트(Thomas Davenport)는 “한국은 전 세계 어느 곳보다 많은 데이터가 공급 유통되고 있는 곳”이라며 한국을 ‘이 세상에서 가장 흥미로운 장소(the most interesting place on earth)’라고 표현했다. 전 세계 어느 나라보다도 한국은 통신이나 모바일 기기가 많이 퍼져 있고, 빅데이터라고 불릴 만한 정보들이 넘쳐흐른다는 이야기다. 흥미롭다는 게 꼭 좋다는 것은 아니다. 데이터와 콘텐츠의 질이 문제가 아닐까?
목차