한국시니어과학기술인협회 고문 박 성 현
오늘날 우리는 4차 산업혁명 시 대 에 살 고 있 으 며 , 4 차산업혁명은 빅데이터(Big Data), 인공지능(AI), 사물인터넷(IoT), 클라우드 컴퓨팅, 자 율 주 행 자 동 차 기 술 등 으 로 불 리 는소프트웨어와 데이터 기반의 지능 디지털 기술(intelligent digital technology) 혁명이다. 모든 기술이 데이터로부터 만 들 어 지 므 로 빅 데 이 터 가 핵 심 적 인 역 할 을 하 고 있 다 . 빅 데 이 터 는 기 존 데 이 터 베 이 스 의 데 이 터수집·저장·관리·분석의 역량을 넘어서는 정형 및 비정형 데이터를 포함하는 대용량의 데이터로부터, 의사결정에 필요한 정보와 지식을 추출하는 관리·분석 기술이다.
여기서 정형 데이터(structured data)는 정해진 서식에 따라 특정 형식에 맞춰 잘 구조화되어 있는 데이터이고, 비정형 데이터는 데이터 하나하나마다 크기와 내용이 달라 통일된 구조로 정리하기 어려운 데이터로, SNS 관련 데이터, 뉴스 게시물, 유튜브 동영상, 사진 등 다양한 데이터이다. 오늘날 우리는 데이터의 홍수 시대에 살고 있다. 예를 들면, 1분 동안에 구글에서는 200만 건의 검색, Twitter에서는 27만 건의 트윗, 월마트는 1.7만 건의 거래가 이루어진다. 실로 빅데이터는 크기(Volume), 속도(Velocity), 다양성(Variety)의 ‘3V’ 특징을 가지고 있다.
빅데이터가 어느 날 갑자기 지구상에 나타난 것은 아니다. 빅데이터의 뿌리를 살펴보면, 이미 1970년대에 통 계 학 에 서 는 데 이 터 분 석 ( d a t a a n a l y s i s ) 기 법 이 연 구 되 었 으 며 , 8 0 년 대 에 는 컴 퓨 터 과 학 분 야 에 서데이터베이스 관리이론이 연구되었다. 이들 연구를 종합하여 90년대에는 다량의 데이터로부터 정보를 추출하는 데이터 마이닝(data mining) 기법이 출현하여 오늘날의 빅데이터의 모습이 드러나기 시작하였다.
2 0 0 0 년 대 에 들 어 서 면 서 경 영 학 에 서 는 비 즈 니 스분석학(b u s i n e s s a n a l y t i c s ), 생물학에서는 바이오 정보학(bio-informatics) 등의 데이터 기반의 학문 연구가 데이터 마이닝과 합쳐지면서 오늘날의 빅데이터 기술이 완성되게 되었다.
빅데이터 분석의 대표적인 흐름도를 보면 <그림 1>과 같다. 원시 데이터(r a w d a t a )의 수집에서 시작하여 데이터의 정리, 편집, 저장 등의 데이터 프로세싱을 거치고, 이상치(outliers) 등의 불필요한 데이터를 제거하고, 탐구 데이터분석(exploratory data analysis)을 거쳐 기초적인 통계 정보를 획득하고, 다음으로 모델링과 알고리즘을 통하여 현상의 분석과 미래를 예측하는 정보를 창출한다. 그 정보를 시각화를 통하여 소통하고 의사결정에 사용되며, 데이터 결과물을 현실에 적용하도록 하는 과정을 거치게 된다.
오늘날 컴퓨터의 성능이 좋아지고 클라우드 컴퓨팅 기술이 확장됨에 따라서, 빅데이터 플랫폼(platform)이 각광을 받고 있다. 빅데이터 플랫폼은 자신의 시스템을 개방하여 개인, 기업 할 것 없이 모두가 참여하여 원하는 비즈니스를 자유롭게 할 수 있도록 환경을 구축하고, 참여자들 모두에게 새로운 가치와 혜택을 제공해 줄수 있는 빅데이터 컴퓨터 시스템을 말한다. 빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필수적인 인프라(infrastructure)인 셈이며, 그 역할과 기능을 간단히 그림으로 설명하면 <그림 2>와 같다.
빅데이터 플랫폼에서는 기본적으로 빅데이터의 수집, 저장, 처리, 관리가 필요하며, 데이터 분석 솔루션을 통하여 원하는 정보를 추출하는 과정을 거치게 된다. 이 과정에서 주로 사용되는 프로세스로는 병렬 처리의 분할과 점령(divide and conquer)이다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말한다. 이런 방법으로 문제를 여러 개의 작은 연산으로 나누고 이를 취합하여 하나의 결과로 만드는 것이다. 대용량의 데이터를 처리하는 기술 중 가장 널리 알려진 것은 아파티 하둡(Apache Hadoop)과 같은 맵리듀스(Map-Reduce) 방식의 분산 데이터 처리 프레임워크이다.
분석 결과의 활용 범위는 고객정보 분석, 소셜 네트워크 분석, 기업에서는 품질 및 생산성 분석, 생물학계에서는 유전체 분석 등 모든 분야에서 매우 다양하다. 대표적인 예를 들어보자. 아마존은 모든 고객의 구매 내역을 데이터베이스에 기록하고, 이 기록을 분석해 고객의 소비 취향과 관심사를 파악한다. 이런 빅데이터 활용을 통해 아마존은 고객별로 ‘추천 상품’을 표시해 준다. 고객 각자의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일이나 홈페이지 상에서 중점적으로 고객 각사람에게 자동으로 제시하는 것이다. 이런 활동은 구글과 페이스북에서도 하고, 우리나라에서도 상업용으로 유사한 방법들이 다양하게 사용되고 있다.
빅데이터는 산업에서만이 아니라 정치에서도 이용된다. 대표적인 사례가 2008년 미국 대통령 선거이다. 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 ‘유권자 맞춤형 선거 전략’을 전개했다. 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화나 개별 방문이나 소셜 미디어를 통해 유권자 정보를 수집하였다. 이런 데이터를 유권자 데이터베이스를 온라인으로 통합 관리하는 ‘VoteBuilder.com’ 시스템의 도움으로 유권자 성향분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔고, 이를 바탕으로 ‘유권자 지도’를 만들어 ‘유권자 맞춤형 선거 전략’을 전개해 승리할 수 있었다.
우리나라에서 만들어진 빅데이터 중 중요한 것 하나는 국민건강보험공단이 가지고 있는 가입자의 자격, 보험료, 건강검진 결과 및 생활습관 정보 등 2조 1천억 건, 건강보험심사평가원이 가지고 있는 진료내역, 투약내용, 의약품유통 등의 2존 2천억 건 등으로, 이 빅데이터는 민간에도 상당 부분 개방되어 있고, 활용도가 뛰어난 편이다. 이 건강 관련 빅데이터는 우리나라가 의료 선진국으로 가는 데 큰 도움을 주고 있다.
마지막으로 ‘데이터는 21세기 석유’이고, ‘국가경쟁력은 데이터 경쟁력이 좌우한다’라고 흔히 말한다. 맞는 말이다. 데이터 경쟁력은 빅데이터를 얼마나 잘 활용하느냐에 달려 있다고 볼 수 있다. 앞으로 빅데이터를 다루는 데이터 과학(data science)의 발전, AI의 발전과 더불어 빅데이터·AI 경제 시대가 올 것으로 예상되며, 이 분야에서 우리나라가 앞서가기를 희망한다. 이 분야에서 앞서가면 4차 산업혁명 기술에서 앞서가는 것이며, 그것은 우리나라가 과학기술 선진국으로 도약할 수 있는 기반이 마련되는 것이다.
필자소개 :
North Carolina State University 통계학 박사
서울대학교 통계학과 교수
한국과학기술한림원 원장
현 사회적책임경영품질원 회장