|
인문학총람 503 2017년 11월 9일(목) |
빅데이터
Big Data 大数据
K는 새벽 6시 30분 버스를 타서 신용카드로 결제했다. 버스에서 핸드폰[Cell phone]으로 뉴스를 검색하고 간단한 댓글을 달았다. 그 다음 페이스북(Facebook)에 접속하여 친구들의 동정을 살펴본다. 관심 있는 글에 ‘좋아요’를 누른다. 그리고 메일을 열어서 읽어본다. 버스 안에는 반쯤 사람이 있었고, 그 중 K처럼 핸드폰을 보는 사람이 반이 넘었다. 이들의 행위는 빅데이터의 정보로 축적된다. 이 정보들을 분석하면 K와 같은 새벽형 인간의 행동패턴을 알 수 있다. 그리고 뉴스의 댓글이나 페이스북의 ‘좋아요’를 통하여 의식, 감정, 연결망, 취향 등이 드러난다. 이처럼 모든 사람이 정보소비자이자 정보생산자가 되는 현상은 인터넷환경이 변화했기 때문이다. 대략 2010년을 전후하여 컴퓨터의 저장 방법과 용량, 연산능력, 분석과 분류의 속도, 데이터의 축적, 가치해석, 연결의 범위 등이 획기적으로 달라졌다.
2010년대부터 일 년에 수백 엑사바이트[Exabyte, 1엑사바이트는 미국 의회도서관 인쇄물의 10만 배]의 데이터가 축적되고 있다. 기존의 데이터와는 비교가 되지 않는 방대하고도 다양한 정보가 축적되면서 4차 혁명으로 불리는 변화가 시작된 것이다. 빅데이터라는 개념을 처음 정초한 존 매시(J. Mashey)는 1998년, ‘빅데이터로 상징되는 기술의 흐름(technology waves)을 모르면 살아남을 수 없다’는 과격한 발언을 한 바 있다. 이후 그가 예측한 대로 데이터는 폭발적으로 증가했고 컴퓨터 용량과 속도는 획기적으로 증대되었다. 다양한 데이터는 입력(input) - 분석 및 분류 - 연관성 및 연속성 해석 - 결과 도출(out put)의 정보처리 순서를 거친다. 이 과정에서 과거와 다른 빅데이터의 특성이 작동한다. 빅데이터의 특성은 여러 가지가 있는데, 메타그룹(META group)은 다음 3V로 정리한 바 있다.
빅데이터의 특성은 첫째, 데이터의 방대한 크기(Volume) 둘째, 실시간의 빠른 속도(Velocity) 셋째, 문자나 수치(數値)만이 아니라 이미지, 동영상, 사진, 음향, 위치정보(GPS)와 같은 다양성(Variety)이다. 여기에 데이터의 가변성(Variability)과 정확성(Veracity)이 첨가되어 5V로 정리되었다. 그러므로 빅데이터는 데이터의 중요성을 강조하는 개념이면서 방대한 데이터, 데이터의 빠른 처리 속도, 분산 처리 방법, 다양한 데이터 분석, 신뢰성을 가진 가치생산 등을 의미하는 것이다. 따라서 빅데이터는 방대한 정보를 생산하는 디지털 환경, 다양한 정보를 인지하고 분류하는 방법, 연산능력인 컴퓨팅 용량 증대, 저장 공간의 증대와 방법 변화, 정보처리 속도의 개선, 유비쿼터스(Ubiquitous) 환경 등이 복합적으로 작용한 결과다. 빅데이터의 반대 개념인 작은 데이터(small data)는 기존의 통계분석과 관계형 데이터베이스(RDBMS)로 분석할 수 있는 정형화된 데이터를 말한다.
2010년 전후 통계축적, 감지기(sensor), 전자태그(RFID), 연결방식[interface], 연결규칙[protocol] 등이 크게 발전했다. 아울러 클라우드(cloud) 공간과 오픈소스를 이용한 데이터의 분산처리 방법과 컴퓨터 병렬방식도 개선되었다. 또한 사람도 사물처럼[agent] 통계 처리될 뿐 아니라 모든 것이 연결되는 사물인터넷(IoT)이 작동되고 있다. 여기에 인간 뇌의 정보처리능력을 인공화한 인공신경망(artificial neural networks, ANN)인 인공지능(AI)의 정보처리 능력의 향상되었다. 그 외에 딥러닝/심층학습(Deep learning)의 자율성이 더해지고, 벡터(Vector)로 표시되는 방향성까지 덧붙여서 빅데이터의 분석과 예측이 더 정확해졌다. 빅데이터 처리는 여러 형태의 정보처리가 가능하도록 데이터화(datification)가 선행되어야 한다. 가령, 이미지를 처리하는 그래픽카드(GPU)와 다차원적 흐름을 처리하는 텐서카드(TPU, Tensor Processing Unit)의 기능이 좋아야 하고, 자연어처리와 통계추론 등이 가능해야 한다.
데이터와 알고리즘이 유기적으로 결합되면 자동차자율주행, 번역과 통역, 의료, 교육, 군사, 기업, 기상, 교통 등 여러 영역을 분석할 수 있다. 하지만 빅데이터 정보처리는 과거의 데이터로 현재와 미래를 예측하는 귀납추론이다. 그러므로 귀납추론에 근거한 빅데이터 처리는 무한히 많은 데이터가 있더라도 정확한 예측은 하기 어려울 뿐 아니라 섬세한 부분을 간과할 염려가 있다. 그래서 데이터마이닝(data mining)이라고 하는 데이터의 유용한 정보를 추출하는 과정이 필요하다. 한편 데이터를 축적한다는 것은 개인정보를 노출하고 보안의 안전성을 해칠 염려가 있다. 그래서 빅데이터는 행위자[agent]인 노드(node)를 감시하는 빅부라더(Big Brother)에 비유되기도 한다. 그러므로 빅데이터는 윤리와 규칙을 지키면서 사회에 이익이 되는 데이터 처리 기술이 동반되어야 한다. (충북대 교수 김승환)
*참고문헌 John R. Mashey (April 25, 1998), “Big Data ... and the Next Wave of InfraStress”, Slides from invited talk, Usenix. Retrieved September 28, 2016.
*참조 <결정론>, <경험론/경험주의>, <귀납⦁연역⦁귀추>, <복잡계>, <신경과학>, <인공지능 AI>