빅데이터 시대의 유연성(소통)

<div class="headword_title" style='text-align: center; color: rgb(51, 51, 51); text-transform: none; text-indent: 0px; letter-spacing: normal; padding-bottom: 57px; font-family: 나눔고딕, NanumGothic, "맑은 고딕", "malgun gothic", 돋움, Dotum, "Apple SD Gothic Neo", Helvetica, sans-serif; font-size: 13px; font-style: normal; font-weight: 400; word-spacing: 0px; white-space: normal; position: relative; orphans: 2; widows: 2; font-variant-ligatures: normal; font-variant-caps: normal; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;'><h2 class="headword" style="margin: 9px auto 0px; padding: 0px; width: 580px; color: rgb(17, 17, 17); line-height: 46px; font-size: 32px; -ms-word-break: keep-all; overflow-wrap: break-word; -webkit-tap-highlight-color: rgba(0, 0, 0, 0);">빅데이터 시대의 소통과 창조</h2></div><div class="size_ct_v2" id="size_ct" style='color: rgb(51, 51, 51); text-transform: none; line-height: 25px; text-indent: 0px; letter-spacing: normal; padding-bottom: 60px; font-family: 나눔고딕, NanumGothic, "맑은 고딕", "malgun gothic", 돋움, Dotum, "Apple SD Gothic Neo", Helvetica, sans-serif; font-size: 14px; font-style: normal; font-weight: 400; word-spacing: 0px; white-space: normal; orphans: 2; widows: 2; font-variant-ligatures: normal; font-variant-caps: normal; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial; overflow-wrap: break-word;'><div class="tmp_agenda newline" style="background: rgb(248, 249, 251); padding: 18px 24px 20px; border: 1px solid rgb(242, 245, 249); border-image: none; clear: both; margin-bottom: 50px;"><h3 style="margin: 0px; padding: 0px; color: rgb(51, 51, 51); clear: both; font-size: 1.07em;">목차</h3><ol style="list-style: none; margin: 6px 0px 0px; padding: 0px; line-height: 1.61em; overflow: hidden; -ms-zoom: 1;"><li style="margin: 5px 0px 0px; padding: 0px 0px 0px 12px; width: auto; float: none; position: relative;"><a style="color: rgb(0, 51, 172); text-decoration: none; cursor: pointer;" xxonclick="clickcr(this, 'bdy.contents', '', '',event);" href="https://terms.naver.com/entry.nhn?docId=2268443&cid=42171&categoryId=42183#TABLE_OF_CONTENT1">왜 빅데이터인가?</a></li><li style="margin: 5px 0px 0px; padding: 0px 0px 0px 12px; width: auto; float: none; position: relative;"><a style="color: rgb(0, 51, 172); text-decoration: none; cursor: pointer;" xxonclick="clickcr(this, 'bdy.contents', '', '',event);" href="https://terms.naver.com/entry.nhn?docId=2268443&cid=42171&categoryId=42183#TABLE_OF_CONTENT2">빅데이터를 구성하는 열 개 항목</a></li><li style="margin: 5px 0px 0px; padding: 0px 0px 0px 12px; width: auto; float: none; position: relative;"><a style="color: rgb(0, 51, 172); text-decoration: none; cursor: pointer;" xxonclick="clickcr(this, 'bdy.contents', '', '',event);" href="https://terms.naver.com/entry.nhn?docId=2268443&cid=42171&categoryId=42183#TABLE_OF_CONTENT3">더 살펴보고 싶은 소주제</a></li></ol></div><h3 class="stress" id="TABLE_OF_CONTENT1" style="margin: 0px 0px 20px; padding: 0px; color: rgb(17, 17, 17); clear: both; font-size: 1.42em; -webkit-tap-highlight-color: rgba(0, 0, 0, 0);">왜 빅데이터인가?</h3>데이터가 세상을 지배하고 있다. 당신이 퇴근길 집 근처 마트를 지나갈 때 “냉장고에 생수가 떨어지지 않았나요? 1+1 행사를 놓치지 마세요”라는 문자가 휴대폰으로 날아온다고 해서 놀랄 필요는 없다. 당신의 구매 주기와 스마트폰 위치정보를 이용하면 어렵지 않은 마케팅 활동이기 때문이다. 즐겨보는 드라마의 주인공이 마음에 들지 않는다면 굳이 채널을 돌릴 필요가 없다. 내가 좋아하는 배우로 바꾸고 스토리도 고쳐서 볼 수 있는 일대일 맞춤형 방송도 전혀 불가능한 기술은 아니기 때문이다. 자신과 가족의 정보를 자세하게 알고 있는 누군가로부터 피싱 전화가 걸려오는 것도 늘 예상하고 있어야 한다. 우리를 둘러 싼 일상사가 데이터를 매개로 돌아가고 있기 때문이다. ‘빅데이터(Big Data)’의 등장은 혁명이라고 표현할 정도로 우리 생활과 산업 전반에 걸쳐 커다란 영향력을 행사하고 있다. 생활 그 자체가 빅데이터라 해도 지나치지 않다. 우리가 하루 동안 쏟아내는 데이터의 양을 생각해 보면 수긍이 간다. 아침에 일어나면 머리맡에 놓인 스마트폰으로 밤새 이메일이나 메시지가 도착하지 않았는지 습관적으로 확인한다. 출근길에 지하철이나 택시 안에서도 스마트 기기로 뉴스도 보고 동영상도 즐긴다. 물론 내릴 때는 신용카드로 결제한다. 회사에서는 출입카드가 내가 하루 종일 다닌 경로를 일일이 기록한다. 도처에 설치된 CCTV도 내 모습을 영상에 담는다. 사무실에서 처리한 전자결재와 인터넷 서핑도 저장되고, 점심에 구내식당에서 뭘 먹었는지도 기록된다. 저녁 약속 장소가 처음 가는 곳이라도 스마트폰의 지도 찾기를 이용하면 걱정이 없다. 퇴근 후 집에 돌아와 스마트TV를 본다면 방송 프로그램은 물론 광고 시청까지 기록된다. 주말에 대형 마트에라도 들른다면 우리 가족의 일주일치 식단이 그대로 기록으로 남는다. 디지털 환경은 우리의 족적만을 기록하는 데서 그치지 않는다. 페이스북이나 트위터 이용자라면 그 사람의 관심사와 정치성향은 물론 어떤 사람들과 관계를 맺고 있는지도 드러난다. 이런 정보를 모으면 그 사람이 어떤 유형의 라이프스타일에 속하는지, 이번 선거에서 누구에게 투표할지도 예측할 수 있다. 실제로 2012년 2월 미국의 시사주간지 ≪타임≫은 부모보다 먼저 여고생의 임신사실을 알아내서 임신 관련 용품 할인 쿠폰을 보낸 소매 체인의 사례를 보도했다. 미국의 대형 소매 체인인 타깃(Target)은 통계분석 전문가를 고용해 고객 데이터를 분석해서 다양한 할인 이벤트를 제안하고 있다고 밝혔다. 소매업체의 입장에서 고객의 가정에서 일어나는 결혼식, 이직, 출산, 졸업과 같은 사건은 매출을 늘릴 수 있는 좋은 기회인 것이 틀림없다. 특히 임신은 식단과 의류, 관련 용품 구매 등 소비 패턴이 크게 변화하는 중요한 사건이다. 타깃은 고객의 구매 품목을 분석해서 ‘임신예측지수’를 계산해 임신 단계별로 필요한 품목의 할인 쿠폰을 보내는 것으로 알려졌다. 이렇게 고객의 구매 데이터를 분석해서 마케팅 활동에 활용하는 사례는 새삼스러운 것은 아니다. 장바구니 분석(Market Basket Analysis)이라고 불리는 이러한 방법은 고객관계관리(CRM, Customer Relationship Management)의 대표적인 사례로 여러 차례 소개되었다. 세계 최대의 소매유통 체인인 월마트(Wal-mart)가 고객의 구매 데이터를 분석한 결과 전혀 관계가 없는 것처럼 보이는 아기용 기저귀와 맥주가 함께 팔리고 있다는 사실을 발견해 매장의 상품 배치에 활용한 사례가 대표적이다. 한국의 대형 유통 매장에서도 이를 활용해 샐러드 옆에는 드레싱을, 정육 매장에는 쌈장을, 심지어 수산물 코너에는 미니 요리책을 함께 배치해서 매출을 높이는 효과를 보고 있다고 한다. 이러한 매장 배치의 변화만으로 매출이 기존에 비해 30%에서 세 배 정도 증가한 것으로 나타났다. 한국에서는 1990년대 중반 이후 주목받기 시작한 고객관계관리 활동의 일환으로 각 기업에서는 전담부서를 만들어 자사의 고객정보를 분석해서 다양한 마케팅 활동을 전개했다. 고객을 특성별로 분류하는 고객 세분화(customer segmentation)를 통해 앞에서 설명한 장바구니분석을 활용해서 서로 연관된 제품이나 서비스를 판매하는 교차 판매(cross selling), 주 구매 대상을 골라내는 표적 마케팅(target marketing), 더 비싼 상품이나 서비스로 이동시키는 상향판매(up-selling), 이탈이 예상되는 고객을 알아내어 계속 유지하도록 만드는 고객이탈방지(churn management), 수요 예측(forecasting) 등이 대표적으로 적용했던 기법들이다. 이러한 활동을 위해 기업들은 고객 데이터를 관리하는 데이터웨어하우스(Data Warehouse)와 같은 대규모 전산시스템을 앞다투어 구축했다. 방대한 양의 데이터에서 숨겨진 정보를 찾아내는 데이터 마이닝(data mining) 개념이 주목받기 시작한 것도 이때부터다. 데이터 분석에 기초한 마케팅 활동은 빅데이터 이슈가 등장하기 전부터 존재한 셈이다. 프랑스혁명이 어느 날 갑자기 바스티유 감옥이 허물어지면서 시작된 것이 아니라 루소나 몽테스키외와 같은 계몽사상가들에 의해 반세기 이전부터 분위기가 서서히 고양되었듯이 빅데이터도 데이터 분석을 통한 다양한 실험의 연장선상에 놓여 있는 것이다. 즉, 빅데이터는 생산자 중심에서 소비자 중심으로 패러다임의 전환, 기업 전산화에 따른 데이터의 축적, 분석에 기반한 의사결정의 과학화 등의 조건에 힘입어 등장한 개념이다. 이러한 새로운 사상의 배경에는 그동안 기업에 도입된 CRM, 전사적 자원관리(ERP, Enterprise Resource Management), 전사적 데이터웨어하우스(EDW, Enterprise Data Warehouse), 공급망관리(SCM, Supply Chain Management) 등 다양한 시스템 운영 기술과 경험이 뒷받침하고 있다. 그렇다면 빅데이터는 기존의 고객관계관리 활동과 어떤 점에서 다른 것일까. 빅데이터의 특징은 데이터의 양, 데이터의 생성 속도, 데이터 종류의 다양성으로 요약한다. 이 중에서 다양성은 빅데이터를 주목하도록 만드는 특별한 이유다. 빅데이터와 고객관계관리를 비교하면 우선 데이터의 규모에서 차이가 있고 분석에 활용하는 데이터의 종류도 해당 기업이 보유하고 있는 내부 고객 데이터 중심에서 소셜 미디어를 통한 잠재 고객의 데이터까지도 포함한다. 또한 고객관계관리 활동이 정형화된 숫자 데이터를 기반으로 반복되는 마케팅 활동을 시스템으로 구현해 놓은 데 반해 빅데이터 분석은 해당 분야의 시장 예측을 위한 트렌드 분석까지도 포괄해 적용 대상과 분석기법이 확장된 개념으로 정의할 수 있다. 2012년 재선에 성공한 버락 오바마(Barack Obama) 대통령의 빅데이터 활용 사례는 빅데이터를 기업들의 마케팅뿐 아니라 정치, 행정 등 다양한 분야에서 적용할 수 있음을 말해준다. 재선을 준비하던 오바마 대통령 선거 캠프는 다음과 같은 내용의 구인 공고를 냈다. “2012년 11월까지 일할 예측모델 과학자, 데이터 마이닝(data mining) 분석가 구함. 목표는 오바마 대통령의 재선.” 이렇게 모집한 분석가들은 어떤 일을 했을까? ≪파이낸셜 타임≫은 재선에 성공한 이후 “빅데이터가 이번 선거에 관한 진짜 이야기다. 정치 미디어 생태계 전체가 변했다”고 보도했다. 짐 메시나(Jim Messina) 재선 캠프 본부장은 시카고에 선거 캠프를 구성하고 나서 제일 먼저 데이터 분석팀을 가동했다. 그의 표현에 따르면 선거운동의 일거수일투족을 수치화했다. 재선 캠프 본부장의 전직이 유통체인회사의 고객 데이터 분석 전문가라는 것에서 알 수 있듯이, 데이터 분석팀은 2008년 당시 자원봉사자와 후원자 명단, 여론조사기관과 모금단체, 광고회사, 소셜 미디어 데이터 등을 통합했다. 이러한 다양한 유형의 데이터를 활용해서 캠페인 본부는 매일 밤 선거 진행 방향을 아마존의 클라우드 서비스를 이용해 모의실험하면서 발생할 수 있는 상황을 점검했다. 기업뿐 아니라 정부와 공공부문도 빅데이터가 몰고 올 혁신과 패러다임의 변화에 주목하고 있다. 미국과 싱가포르 정부는 재난 방재와 테러 감지, 전염병 확산과 같은 위험을 예측하고 분석하는 ‘빅데이터 기반 위험관리 계획’을 추진하고 있다. 특히 미국 오바마 정부는 빅데이터를 선도하기 위한 다양한 정책을 진두지휘하고 있다. 이미 2010년 대통령 과학자문위원회는 디지털 미래전략 보고서에서 ‘모든 연방 정부 기관은 빅데이터 전략이 필요하다’고 선언했다. 2012년 3월에는 빅데이터 연구개발 주도권(Big Data Initiative) 전략을 발표했다. 이 계획에 따르면 대통령실 과학기술국은 2억 달러(약 2200억 원)를 투자해 빅데이터 수집·저장·보관·관리·분석·공유를 위한 핵심 기술을 개발하고 빅데이터 기술 개발에 필요한 인력을 양성할 계획이다. 여기에는 국립과학재단(NSF)과 국방부 등 6개 정부 기관이 참여할 예정이다. 특히 국방부(DoD)는 빅데이터 분야에 대한 큰 투자(Big Bet on Big Data)라는 구호를 내걸고 매년 2억 5000만 달러(약 2800억 원)를 군사작전 자동화 시스템 개발을 위한 빅데이터의 활용과 다양한 언어로 된 문서에서 정보를 추출하는 영역에 투자할 계획이다. 영국도 빅데이터 분야를 선도하기 위해 노력하고 있다. 영국 정부는 이미 공공부문의 정보 공유와 활용을 위한 데이터 원스톱 서비스(data.gov.uk)를 제공하고 있다. 2012년에는 오픈 데이터 정책의 일환으로 전담 기관(ODI, Open Data Institute)을 설립했다. 이 기관은 정부 데이터를 활용한 가치 창조를 위해 정부와 민간, 대학, 연구소가 협력체제를 구축해 향후 5년간 정부예산 1000만 파운드(약 180억 원)를 지원할 예정이다. 제3의 물결의 도래를 예견한 미래학자 앨빈 토플러(Alvin Toffler)는 『부의 미래』에서 다가올 ‘제4 물결’의 시대에 부를 창출하기 위한 핵심 요소는 ‘지식’임을 강조했다. 제4 물결의 시대에는 거대하게 유통되는 정보에서 유용한 지식을 구별해 내기 위한 과학적 방법이 중요함을 역설한 것이다. 글로벌 컨설팅 회사인 맥킨지(McKinsey)는 빅데이터 보고서에서 산업혁명과 IT혁명에 버금가는 스마트혁명의 시기에 빅데이터는 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천이라고 했다. IT분야의 리서치와 자문 회사인 가트너(Gartner, Inc.)도 데이터를 21세기의 원유라고 표현했다(Gartner, 2011). 2012년에 열린 다보스 포럼(Davos Forum)에서도 데이터를 화폐와 금과 같은 새로운 자산으로 주목했다. 포럼은 위기에 처한 자본주의를 구하기 위해서는 ‘사회 기술 모델(Social and Technological Models)’의 제시가 필요하고 ‘빅데이터’가 이 영역에서 사회현안을 해결하는 강력한 도구가 될 것으로 예측했다. 구글 트렌드(Google Trend)는 인터넷에서 검색어 빈도를 통해 해당 주제에 대한 글로벌 관심을 시계열로 보여주고 있다. 빅데이터 검색에 관한 관심도 변화를 보면 2011년을 기점으로 폭발적으로 증가하고 있는 것을 확인할 수 있다. 관심도를 국가별로 보면 가장 높은 관심을 보이고 있는 인도(지수 기준으로 100)를 제외하면 우리나라가 78로 세계 2위로 나타났다. 빅데이터를 선도하고 있는 미국이 47, 영국이 30으로 나타났고, 싱가포르가 62, 호주가 37인 반면 일본은 8로 매우 낮게 나타났다. 특정 주제에 대한 사회 여론화가 매우 빠르게 나타나는 한국의 특성을 감안하더라도 빅데이터에 대한 관심이 매우 높은 수준이 틀림 없다.<h3 class="stress" id="TABLE_OF_CONTENT2" style="margin: 0px 0px 20px; padding: 36px 0px 0px; color: rgb(17, 17, 17); clear: both; font-size: 1.42em; -webkit-tap-highlight-color: rgba(0, 0, 0, 0);">빅데이터를 구성하는 열 개 항목</h3>이 책에서는 빅데이터를 구성하는 열 개의 항목으로 빅데이터 정의, 빅데이터 활용, 빅데이터 기술, 데이터 마이닝, 비정형 데이터 마이닝, 데이터 시각화, 클라우드 컴퓨팅, 데이터 센터, 빅브라더, 데이터 과학자를 선정했다. 빅데이터 주제 자체가 오랜 기간 체계적으로 정리된 이론적 배경을 지니기보다는 데이터 분석이라는 실무 현장에서 태동되고 발전되어 온, 그리고 현재도 진화가 계속되고 있는 특성을 지니기 때문에 가장 먼저 거론할 항목으로 정의, 활용, 기술을 꼽았다. 또한 빅데이터 생태계의 핵심 구성 요소를 분석 방법, 하드웨어, 인력으로 구분해 각 요소를 대표하는 항목을 선정했다. 분석 방법으로는 정형화된 데이터를 대상으로 한 데이터 마이닝 방법론과 문자와 영상 데이터를 대상으로 한 비정형 데이터 마이닝으로 구분해 소개했다. 특히 빅데이터 환경에서는 방대한 데이터를 이용자에게 효과적으로 전달하기 위한 방법이 주목받고 있다는 점에서 데이터 시각화를 독립된 항목으로 살펴보았다. 하드웨어 관점에서는 빅데이터 생태계의 인프라를 구성하는 클라우드 컴퓨팅과 데이터 센터를 소개했다. 이와 함께 빅데이터의 등장으로 자연스럽게 제기되는 정보보호와 프라이버시 문제를 ‘빅브라더’에서 다루었고, 빅데이터의 미래를 좌우할 핵심 요소인 데이터 과학자에 대해 살펴보았다. ‘정의’에서는 빅데이터의 등장 배경과 정의를 살펴보았다. 또한 3V로 요약되는 빅데이터의 특징과 의미를 요약했다. ‘활용’에서는 빅데이터 이슈를 촉발시킨 민간 기업의 사례를 통해 빅데이터가 우리 사회에 어떤 파급효과를 불러일으키고 있는지를 강조했다. 구글(Google)의 자동번역시스템, IBM의 슈퍼컴퓨터 왓슨, 아마존(Amazon)의 도서 추천 서비스 등을 소개해 빅데이터의 선두 주자가 기업임을 부각했다. 미국과 싱가포르, 영국 등 정부를 비롯한 공공부문에서 위험관리, 탈세 등 부정행위방지, DNA정보를 이용한 범죄 수사에 빅데이터가 어떻게 활용되고 있는지를 살펴본 것은 빅데이터가 기업뿐 아니라 사회 전반의 이슈로 작용하고 있음을 알리기 위한 의도다. ‘기술’ 항목의 핵심 키워드는 구글이다. 구글은 인터넷 검색 개발 과정에서 대량의 비정형 데이터를 효율적으로 처리하기 위한 새로운 기술을 창조한 선도자다. 구글이 개발해 공개한 분산 파일시스템과 빅테이블, 맵리듀스는 빅데이터 처리 기술의 표준이라 할 수 있다. 대용량의 데이터 처리를 위해 개발된 오픈 소스 소프트웨어(open- source software)인 하둡(hadoop)도 구글의 기술에 기초하고 있다. 하둡을 구성하고 있는 하둡 분산 파일시스템, 에이치베이스, 하둡 맵리듀스는 각각 구글의 처리 기술에 대응하는 기술이다. ‘데이터 마이닝’은 빅데이터 분석을 위한 핵심 방법론이다. 방대한 양의 데이터로부터 유용한 정보를 추출하는 것을 의미하는 데이터 마이닝은 1990년대 중반부터 기업을 중심으로 중요성이 부각되기 시작했다. 이 항목에서는 데이터 마이닝의 정의와 고객관계관리, 데이터웨어하우스, KDD(Knowledge Discovery in Databases)와 같은 관련 용어를 소개하고, 빅데이터와 관련성을 설명했으며, 데이터 마이닝 분석 단계와 데이터 마이닝 활용 분야 소개를 통해 분석 관점에서 빅데이터를 조망했다. ‘비정형 데이터 마이닝’은 빅데이터의 등장으로 가장 주목받고 있는 분야다. 기존의 숫자 데이터 분석에 초점을 맞췄던 데이터 마이닝 개념이 그림이나 영상, 문서처럼 형태와 구조가 복잡한 정형화 되지 않은 데이터를 대상으로 한 분석으로 확장되고 있다. 블로그와 게시판 등 웹에서 폭발적으로 생성되는 비정형 데이터는 내용 분석을 통해 여론의 흐름을 파악할 수 있다는 점에서 중요성이 강조되고 있다. 이 항목에서는 비정형 데이터 분석방법인 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝을 소개한다. 데이터가 구슬이라면 ‘데이터 시각화’는 구슬을 보배로 만드는 강력한 도구다. 여기서는 정보가 넘쳐나는 환경에서 효과적으로 정보를 전달할 수 있는 여러 방법론을 소개했다. 통계학에서 파생한 통계그래픽, 문서에 사용된 단어의 빈도를 시각적으로 표현한 단어 구름, 단어 간 상관관계를 표현하는 코워드 분석, 한 장의 그림으로 많은 데이터를 요약하는 인포그래픽 등이 이 항목의 주요 구성 요소다. 빅데이터를 처리하기 위해서는 여러 대의 서버에 업무를 분리해서 할당하는 분산 처리가 일반적이다. 이러한 이유로 자신의 컴퓨터가 아닌 다른 컴퓨터로 정보 처리를 하는 ‘클라우드 컴퓨팅’은 빅데이터의 핵심 구성 요소다. 이 항목에서는 클라우드를 지탱하는 기술인 가상화와 분산 처리 개념을 소개했다. 또한 빌려 쓰는 요소에 따라 구분하는 클라우드 서비스의 종류와 유형을 살펴보고, 클라우드 서비스를 제공하는 대표 기업인 아마존과 구글, 마이크로소프트의 클라우드 서비스의 특징을 살펴보았다. ‘데이터 센터’는 빅데이터를 저장하고 유통시키는 핵심 인프라와 컴퓨터 시스템과 통신장비, 저장장치인 스토리지 등이 설치된 대규모 시설을 말한다. 이 항목에서는 최근 공개한 구글의 데이터 센터와 페이스북의 데이터 센터를 소개했다. 또한 대규모 전력을 필요로 하는 특성 때문에 정전에 대비한 디젤 발전시설에 의존하고 있는 데이터 센터의 공해 문제와 함께 에너지 효율을 높이고 온실가스를 줄이기 위한 노력을 소개했다. 정부와 기업이 추진하고 있는 개인정보 분석에 기초한 다양한 서비스 제공은 소비자의 입장에서는 편익을 증대시키는 기회지만 이와 동시에 프라이버시 침해라는 개인정보 보호 이슈를 제기한다. 따라서 ‘빅브라더’ 항목은 빅데이터의 등장이 낳는 어두운 측면이라 할 수 있다. 여기서는 프라이버시 침해와 소송 사례를 소개하고, 이를 보호할 목적으로 제정된 개인정보보호법, 정보통신망법, 위치정보보호법 등을 소개한다. 또한 개인의 사생활을 보호하기 위해 익명화와 잊혀질 권리에 대해서도 살펴본다. 빅데이터의 등장으로 각광받고 있는 직업이 ‘데이터 과학자’다. 데이터 과학자란 데이터 과학과 관련된 분야를 전공하고 데이터 분석과 관련된 업무에 종사하는 사람을 말한다. 여기서는 데이터 과학과 데이터 과학자를 개념 규정한다. 또한 데이터 과학자를 양성하기 위한 프로그램과 데이터 과학자의 미래를 전망해 보았다.<h3 class="stress" id="TABLE_OF_CONTENT3" style="margin: 0px 0px 20px; padding: 36px 0px 0px; color: rgb(17, 17, 17); clear: both; font-size: 1.42em; -webkit-tap-highlight-color: rgba(0, 0, 0, 0);">더 살펴보고 싶은 소주제</h3>데이터 마켓(Data Market)은 빅데이터 시장을 이해하는 데 중요한 주제다. 트위터와 같은 SNS 데이터는 기존의 정량적인 데이터와 달리 자발적인 작성자의 감정과 견해가 담긴 의미 있는 데이터다. 이를 분석하기 위해서는 트위터의 데이터가 저장된 데이터베이스인 파이어호스(Firehose)에 접근할 수 있어야 한다. 현재 야후나 구글과 같은 검색회사들은 제휴를 통해서, 데이터시프트(Datasift)와 같은 회사는 트위터 데이터를 가공해서 판매하는 형태를 취하고 있다. 데이터 마켓을 정확하게 이해하기 위해서는 데이터의 소유권을 둘러싼 복잡한 법률과 이해관계에 대한 고찰이 필요하다. ‘빅브라더’에서 프라이버시 문제를 분쟁사례를 통해 간략히 살펴보았지만 더 깊은 논의가 필요하다. 다만 유사한 사례에 대해서도 법원에 따라 상반된 판결이 제시되는 현재 진행중인 주제라는 특징을 감안해야 한다. 특히 개인정보를 거래할 수 있는 상품으로 보는 미국의 견해와 기본 인권으로 접근하는 유럽(EU)의 견해가 근본적으로 상충하고 있다는 점을 주목해야 한다. 데이터 공유와 활용도 관심을 가져야 할 주제다. 특히 기업이 보유하고 있는 데이터를 어떤 방식으로 어느 정도 공개할 수 있는지에 대한 논의와 합의가 필요하다. 기업이 보유하고 있는 개인 데이터는 낱낱을 보면 개인이 소유권을 주장할 수 있지만, 이를 모은 집합적인 데이터가 해당 기업만이 사용할 수 있는 배타적 권리를 가지고 있는지에 대해서는 이견이 존재한다. 기업의 입장에서도 마케팅 목적에서 공익을 위한 목적으로 고객 데이터의 활용 범위를 넓히는 노력이 필요하다. 휴대전화 통화 패턴의 변화를 통해 독감 발생을 예측한 MIT 연구팀의 사례와 통화 패턴 분석으로 주택과 교육, 의료 수요를 추정하고 아이티 지진 때 난민 이동을 분석한 텔레포니카(Telefonica)와 디지셀(Digicel)의 사례는 빅데이터 분석으로 사회 공헌(Data Philanthropy)이 가능하다는 것을 말해준다. 이러한 공익 활동은 궁극적으로 기업의 신뢰를 높여 시장 규모 확대에도 기여할 수 있다. 데이터 저널리즘도 최근 주목받고 있는 분야다. ‘데이터 시각화’ 항목에서 간략하게 언급했지만 방대한 데이터를 이해하기 쉬운 그림이나 그래프로 표현해서 정보를 효과적으로 전달하기 위한 언론사의 노력은 거대 데이터를 보유하고 있는 정부나 기업에 비해 상대적으로 데이터의 활용에서 소외되고 있는 정보 불평등을 해결하기 위해서도 매우 중요하다. 빅데이터 환경은 데이터 자원을 보유하고 활용할 수 있는 능력을 가진 기업과 개인에게는 새로운 기회지만 이 과정에서 소외되는 정보 약자가 양산될 가능성이 매우 높다. 새로운 사회 자본으로 부상하고 있는 데이터 인프라의 이용 격차를 해소하고 함께 성장할 수 있는 지원책이 필요하다. 이미 수년 전부터 경제협력개발기구(OECD)와 유엔(UN)은 통계정보를 쉽게 전달하기 위한 방법론과 기술을 개발하기 위해 노력하고 있다. 정보 약자 지원의 차원을 넘어서 공유와 협업을 통한 창조라는 웹2.0의 관점에서도 데이터에 근거해 불확실한 상황에서 합리적인 판단을 내릴 수 있는 데이터 리터러시(data literacy) 교육이 필요한 상황이다. 조지 오웰(George Orwell)은 소설 『1984』에서 미디어를 통해 모든 것이 조작되고 통제된 암울한 미래를 그렸다. 올더스 헉슬리(Aldous Huxley)도 『멋진 신세계』에서 태어날 때부터 개인의 계급과 미래를 정부가 결정하고 무제한의 쾌락이 보장되는 통제사회를 묘사했다. 빅데이터 시대도 소설이 예견하는 것처럼 통제와 조작이 기술적으로는 얼마든지 가능하다. 개방과 공유라는 웹2.0 정신이 강조되고 있는 이유도 바로 여기에 있다. 그렇다면 미래 소설가가 빅데이터 시대를 맞이한 우리에게 들려준 이야기도 어쩌면 소통을 통한 창조라는 새로운 시대정신을 역설적으로 표현한 것은 아니었을까<div class="autosourcing-stub-extra">[네이버 지식백과] <a style="color: rgb(0, 51, 172); text-decoration: none; cursor: pointer;" href="https://terms.naver.com/entry.nhn?docId=2268443">빅데이터 시대의 소통과 창조</a> (빅데이터, 2013. 2. 25., 정용찬)</div> </div>