빅데이터(Bigdata)
기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다
다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.
이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있다. 빅데이터는 수많은 개인들의 수많은 정보의 집합이다. 그렇기에 빅데이터를 수집,분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 수도 있는 것이다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수 있다.
세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정하는 등 최근 세계는 빅 데이터를 주목하고 있다
빅데이터, 세상을 바꾸다 (요약)
'양날의 검, 빅데이터를 논하다'
[빅데이터란 무엇인가. 각광받는 , 활용분야, 미래전망 ]
어느새 2014년 새해가 밝은 지도 약 한 달이 흘렀습니다. 보통 연초가 되면, 금년도에 전망되는 이슈들을 신문, 잡지, 도서, 각종 TV 프로그램에서 소개가 되는데요. 수많은 2014년 전망 이슈 중 빠지지 않는 아이템 하나가 있으니, 바로 ‘빅데이터’가 그것입니다. 그래서 이번 포스트를 통해 빅데이터는 무엇이고, 이를 어떻게 활용될 수 있는지, 그리고 향후 ‘빅데이터’가 가져올 미래에 대해서도 한 번 이야기해보겠습니다.
빅데이터란 무엇인가?
출처: http://www.binarybiryani.com
빅데이터(BIG DATA)란, 인터넷, 카카오톡, 페이스북, 트위터 등을 통해 오가는 모든 메시지, 이미지, 그리고 영상 등을 포괄하는 용어를 말합니다. 간단하게 말해 이 세상에 존재하는 모든 정보를 의미한다고 볼 수 있는데요. SNS(Social Network Service)뿐만 아니라 GPS를 기반으로 한 지도 정보, 날씨 정보처럼 현존하는 정보들을 ‘중요한 데이터’라는 개념으로 정의하고 주목하기 시작한 데서 ‘빅데이터’의 시대가 도래하기 시작했습니다. 또한, 소셜 네트워크 서비스가 활성화되기 시작하면서 활자뿐만 아니라, 업데이트 되는 데이터의 90%가 이미지, 동영상 등 다양한 형태를 보이고 있습니다. 이처럼 빅데이터는 어디선가 갑자기 튀어나온, 지금까지 없었던 것이 아닙니다. 우리가 지금까지 알아차리지 못했을 뿐, 빅데이터란 새로운 이름으로 재정의를 하는 것이지요.
최근 많은 기업들이 빅데이터로 사람의 욕망을 읽어낼 수 있다는데에 큰 매력을 느끼기 시작했고, 이를 통해 마케팅의 하나의 툴로 활용할 수 있을지에 대해 많은 기대를 하고 있습니다. 이처럼 많은 기업이 활용한 빅데이터 사례들을 통해 빅데이터가 가지고 있는 다양한 가능성과 특징을 살펴보겠습니다.
빅데이터의 활용사례, 활용분야에 대하여
출처: Wikibon
빅데이터의 활용분야가 넓어짐에 따라 빅데이터의 시장 전망도 점점 긍정적으로 변화하고 있습니다. 리서치 및 분석 업체 Wikibon에 따르면, 올해는 168억달러를 돌파할 것으로 예상하고 있다고 합니다. 또 내년에는 올해의 수입을 뛰어넘어 거의 2배의 성장률을 보이고 있는데요. 그만큼 빅데이터의 사용이 대중화되고, 각종 세계 시장에서 유용하게 활용될 것을 예측할 수 있겠습니다. 이하에서는 국내에 빅데이터를 이용한 서비스로 엄청난 인기를 모으고 있는 스타트업 기업들을 소개하면서 빅데이터의 활용사례와 활용분야에 대해 알아보도록 하겠습니다.
활용사례1
내 취향을 분석하여 영화를 추천해주는, 프로그램스의 '왓챠'
프로그램스의 ‘왓챠(watcha)’는 이용자의 취향을 분석하는 영화추천 서비스로 내가 본 영화에 별점을 매기면 왓챠가 내 취향을 분석해서 자동으로 영화를 추천해줍니다. 어떤 방법으로 추천하느냐, 이용자의 취향과 비슷한 사람을 검색한 뒤, 그 사람이 재미있게 본 영화 중 소비자가 보지 않은 영화를 추천하는 방식입니다. 게다가 왓챠를 조금 더 신용할 수 있는 이유 중의 하나는 왓챠의 영화 별점 평가는 네이버 영화를 제치고 국내 1위 규모라는 것이죠.
출처: http://www.watcha.net
왓챠는 별점 평가의 규모, 신뢰성을 인정받아 Google의 영화 검색 결과에도 공식적으로 노출되고 있다고 합니다. 왓챠를 개발한 프로그램스는 대규모 데이터를 분석, 예측하는 빅데이터 사업을 메인으로 한 스타트업 기업이라고 볼 수 있는데요, 왓챠는 직접 영화를 시청한 이용자가 무려 51만명으로, 이들이 매긴 점수의 데이터를 과학적으로 분석해줍니다.
활용사례2
채팅 대화의 감정을 분석해주는, 스캐터랩의 '텍스트앳'
‘텍스트앳(textat)’은 서로 주고받는 카카오톡 대화를 바탕으로 감정을 객관적으로 분석해주는 서비스로 간단히 말하면 ‘감정분석 서비스’ 입니다. 빅데이터 자체가 서비스로 이어지는 모델이라고 볼 수 있는데요. 텍스트앳이 보유하고 있는 대화 데이터베이스양은 무려 5억개 이상입니다. 이 데이터베이스를 바탕으로 과학적 분석을 통해 상대방의 감정을 ‘애정도 분석’, ‘호감도 분석’ ‘상대방과 내가 나눈 대화 주제’, ‘서로가 많이 쓰는 말투 순위’를 별도 숫자를 통해 명확하게 알 수 있습니다.
출처: http://www.textat.co.kr
사람마다 표현방식이 다른데 결국은 표현하고자 하는 내용을 정확히 집어내고자, 이들 사이에 작은 차이를 알아내기 위해 연세대학교 학술세미나와 2년간의 연구개발을 통해 이 기술을 검증 받았다고 합니다. 실제로 서비스 이전에 베타서비스로 30만명 이상의 감정을 분석했다고 하네요. 추후 업데이트를 통해 네이버 라인, 다음 마이피플, 문자 등 연계할 수 있도록 지원할 예정이라고 합니다.
출처: http://www.nflabs.com
빅데이터 자체를 분석할 수 있는 도구를 개발한 스타트업 기업도 있습니다. 엔에프랩(www.nflabs.com)이 개발한 `펠로톤`은 빅데이터 분석 능력이 필요하나, 갖추지 못한 기업을 위해 빅데이터를 분석해 활용할 수 있도록 도와줍니다. 빅데이터를 기반으로 한 스타트업 기업들이 늘어나고 있는 추세이지만, 해외에 비해서는 아직 초기단계에 불과하다고 합니다.
활용사례3
공공부문 빅데이터 사업의 우수 사례로 손꼽히는, 서울시의 올빼미버스
서울시에서 운영하는 심야버스는 빅데이터를 기반으로 한 서비스 중, 손에 꼽을 정도로 좋은 반응을 받았던 서비스입니다. 시민 4240명, 공무원 571명을 대상으로 서울시가 작년에 추진한 33개 정책에 대해 조사한 결과 올빼미버스는 10대 뉴스 중 1위에 오르기도 했는데요, 공공 부문 빅데이터 사업 중 가장 성공적인 사례로 평가 받고 있기도 합니다.
출처: http://www.flickr.com
서울시는 KT의 통화량 통계 데이터와 서울시가 보유한 교통 데이터를 융합•분석해 심야버스 노선을 개선했습니다. 통화량 데이터를 기반으로 홍익대, 동대문, 신림역, 강남, 종로 등의 순으로 유동인구가 많다는 것을 파악하고, 심야택시 승•하차 데이터를 분석해 강남이 교통 수요가 가장 많다는 것 또한 파악했습니다. 또한 시각화된 유동인구를 노선 별, 요일별 패턴을 분석해 심야버스 노선을 최적화된 시스템으로 운행하고 있습니다. 자정부터 새벽5시까지 운행하는 심야버스는 모바일 웹(http://m.bus.go.kr)과 서울교통포털 인터넷 홈페이지(http://topis.seoul.go.kr)에서 시간대를 확인할 수 있답니다.
빅데이터의 어두운 그림자
이처럼 이용자의 마음을 꿰뚫는데 탁월한 빅테이터가 서울시 심야버스처럼 유용하게 쓰일 수 있고, 빅데이터를 수집하고 분석해 효율적으로 업무에 적용할 수 있습니다. 하지만, 빅데이터가 반드시 좋게만 쓰일 수 있는 것만은 아닙니다.
출처: http://www.topicimages.com
네트워크상에서 지인과의 일상대화부터 공유한 이미지, 영상, 텍스트와 같은 모든 것들이 빅데이터로서 수집되고 분석된다는 것입니다. 즉, 무심코 말한 개인 정보가 유출될 수 있고, 산업정보 유출, 나아가 군사정보 유출과 같은 거대한 사태까지 충분히 발생할 수 있다는 것입니다. 빅데이터는 이미 광범위하게 활용되고 있습니다. 아직 빅데이터를 이용한 문제가 논의되거나 언급된 적은 없지만, 이에 대비해 정부차원에서 관리, 대응방안에 대해 준비해야 할 것입니다.
빅데이터의 미래
빅데이터는 유용한 장점 못지 않게 위험한 단점을 갖고 있지만 앞으로의 마케팅에서 빅데이터는 적극적으로 활용될 것입니다. 왜냐하면, 빅데이터는 그만큼 성별, 다양한 연령대, 취미, 관심사와 같은 소비자의 정보를 포괄적으로 가지고 있는 정보이기 때문입니다.
출처: http://www.nytimes.com/
이해가 쉬운 예를 들어보면, 명절을 보내고 나면 이혼율이 높아지고 고가의 명품소비가 증가합니다. 이러한 일시적인 트렌드까지 읽어내는 것이 빅데이터의 힘입니다. 마케팅이란, 소비자의 니즈(needs)를 파악하는 것을 가장 우선시하고 중요시합니다. 소비자의 욕망을 가장 빨리, 그리고 정확하게 잡아내야 성공할 수 있다는 것인데요.
미국의 거대한 언론매체인 뉴욕타임즈는 “The Age Of BIG DATA”라고 언급했습니다. 그만큼 지금 데이터를 기반으로 많은 마케팅들이 이루어지고 있다는 것입니다. 초반부에서 언급했듯이 빅데이터 시장은 앞으로도 지속적으로 커질 것입니다. 물론, 숫자와 통계가 전부는 아닙니다. 하지만, 이를 가능케 한 것은 애정과 상상력 덕분이라는 것 또한 잊지 마시길 바랍니다.
[빅데이터 시대 진입 한국은 왜 힘든가]
“마침내 나올 질문이 나왔네요.” 지난 3월 중순 빅데이터를 주제로 한 한 콘퍼런스 모임. “빅데이터 사용이 활성화하면 결국 프라이버시 침해 문제가 불거지지 않겠느냐”는 질문이었다. 사회를 보던 채승병 삼성경제연구소 수석연구원의 답이다. 그는 석유를 빗대 그 문제를 설명했다.
이날 콘퍼런스의 메인 발제자는 송길영 다음소프트 부사장이었다. 그는 그 질문에 “프라이버시 침해 우려는 칼이 위험하기 때문에 부엌칼도 만들면 안 된다는 논리와 같다”고 답했다. 그리고 덧붙였다. “물론 명백하게 위험한 것이 있습니다. 총포·도검류 단속을 왜 합니까. 개인이 그것을 갖고 있으면 위험하기 때문입니다.
빅데이터 활용 기업만 살아남는다?
빅데이터. 웹2.0, TGIF, SNS 등에 이어 2013년, IT업계에서 올해의 핵심 화두가 될 것이 거의 확실하다. 일주일이 멀다하고 빅데이터를 주제로 한 각종 행사들이 잇따라 열리고 있다. 미래창조과학부도 나섰다. 4월 22일, 미래창조과학부는 ‘빅데이터로 창조경제 시동건다’는 제목의 보도자료를 냈다. 5월까지 빅데이터 우수 서비스 모델과 사업자를 선정해 연말까지 총 14억원 규모의 예산을 지원하겠다는 것이다. 미래창조과학부는 4개 내외의 컨소시엄을 선정해 매칭펀드 형태로 예산을 집행할 계획이다.
모 제약회사의 ‘멍’ 연고 사례는 빅데이터 활용사례로 유명하다. 타박상, 벌레 물린 데 등 다양한 활용이 가능한 이 연고는 홍보 포인트를 제대로 잡지 못해 인지도가 낮은 상태에 머물러 있었다. 제품 마케팅을 맡은 업체는 소셜데이터 분석을 통해 ‘멍’이라는 키워드를 발견했다. 업체의 입장에서는 비슷한 제품을 내는 다른 제약회사가 경쟁상대였지만, 소셜 분석 결과는 판이했다.
빅데이터는 말 그대로 대용량 정보다. 데이터는 지금 이 순간에도 무수히 만들어지고 있다. 여기서 데이터는 채팅을 한다든가, 게시판에 글을 올리는 형태로만 생산되는 것이 아니다.
하지만 데이터 저장기술의 발달, 분석에 필요한 소프트웨어의 발달로 방치되던 이 데이터의 재활용이 가능해졌다. 과거에는 잡히지 않던 ‘의미있는 패턴들’을 잡을 수 있게 된 것이다. 이것이 빅데이터 기술이다.
흔한 예로 google.org의 독감 예보시스템을 든다. 사람들은 병원이나 약국을 찾기 전에 우선 ‘독감’을 구글에서 검색해본다. 각 개인들 입장에서는 지극히 개인적 행위이지만, 데이터로서는 의미있는 패턴이 된다. 실시간으로 독감이 검색되고 있는 추이를 보여주고 있는 구글의 예보시스템은 보건당국의 ‘독감 대유행 주의보’ 발령보다 더 빠르다.
빅데이터, 한국과 미국의 차이
온라인 서점 아마존이 채택하고 있는 책 추천시스템도 일종의 빅데이터를 활용한 것이다. 아마존에서 책을 구입하려는 사람들의 취향은 모두 제각각이다. 하지만 특정한 취향을 갖고 책을 검색한 사람처럼 다른 사람도 그 책에 대해 흥미를 가질 가능성이 많다. 물론 모든 사람이 같은 책을 보지는 않는다. 하지만 아마존은 ‘공통된 패턴’을 추출해서 보여준다. 자연스럽게 잇따른 구매로 이어질 가능성이 많다.
정리하자면 이런 것이다. 기업의 입장에서 이전까지 그냥 양산되는 것에 불과한 데이터에서 의미있는 패턴을 읽어낸다면 이것은 새로운 수익의 원천이 될 수 있다. 그래서 나온 말이 ‘21세기의 원유’라는 말이다. 매킨지 등 유수의 글로벌 컨설팅 기업이 빅데이터를 향후 경제지형을 바꿀 핵심 기술로 꼽는 이유다. 가트너는 지난 2011년 “2015년까지 포춘 선정 500대 기업의 85%가 경쟁우위 확보에서 빅데이터를 활용하는 데 실패할 것”이라고 전망했다. 바꿔 말한다면, 빅데이터를 활용하는 데 성공한 소수의 기업만이 살아남을 것이라는 불길한 전망이다. 여기까지가 빅데이터와 관련한 일반론이다.
그렇다면 한국은 어떨까. 앞의 미래창조과학부 보도자료는 다음과 같은 말로 마무리 문장을 시작한다. “우리나라는 세계 최고의 네트워크 인프라와 함께 풍부한 데이터를 보유하고 있기 때문에 빅데이터가 활성화할 여건은 충분하다.”
과연 그럴까. “빅데이터를 주제로 하는 자리에서 업계 사람들을 많이 만난다. 만나면 공통적으로 하는 말이 우선적으로 ‘데이터가 없다’는 것이다. 빅데이터의 중요성은 알겠는데, 그렇다면 구체적으로 어디서부터 시작해야 하는지, 또 데이터를 모았다면 그것으로 무엇을 할 수 있는지에 대해 묻는다.”
그가 보기에는 공공데이터에 대한 정부나 지자체의 태도가 우선적으로 중요하다. “안전행정부와 정보화진흥원이 공공데이터 포털을 운영하고 있고, 국회에서도 빅데이터 관련 법 제정이 추진되고 있지만 막상 공무원들도 공공데이터에 대해서 모른다. 공공기관들도 개방했다가 혹시 후환이 생길까 두려워 선뜻 내놓지 않고 있다. 공공과 민간 사이의 데이터 개방과 공유를 이야기하면서도 서로 내놓지 않고 있으니 앱 개발생태계의 선순환구조가 만들어지지 않는 것이다.”
빅데이터 활성화 제일 큰 걸림돌은
한국에서 빅데이터가 주목받은 것은 트위터와 마찬가지로 정치적 요인이 있다. 바로 2012년 총선과 대선이었다. 특히 같은 시기 진행된 미국 대선에서 오바마의 빅데이터를 활용한 선거는 한국의 정치권에도 일정한 기대를 심어줬다. 승부는 빅데이터에서 갈린다는 예측이 나왔다.
기업 쪽도 마찬가지다. 한 대기업 홍보팀장은 다음과 같이 말했다. “여러 업체들을 만나봤고, 그들이 제시하는 툴도 사용해봤다. 데이터마이닝, 텍스트 연관분석, 의미망 분석 다 좋다. 이름은 달랐지만 대부분 마찬가지였다. 대부분 데이터 접근이 쉬운 SNS, 그것도 트위터를 근거로 한 분석이다.
더 중요한 문제가 있다. 강정수 연세대 커뮤니케이션연구소 전문위원은 “한국은 굳이 데이터마이닝이니 빅데이터 분석을 하지 않아도 개인정보를 쉽게 입수할 수 있는 나라였지 않았나”라고 반문했다. 개인정보보호법 발효(2011년 9월) 이전까지 기업들은 필요가 없어도 주민번호를 개인식별 자료로 사용해 회원 가입을 받았고, 빅데이터와 같은 ‘비정형 데이터’를 통해 패턴을 찾으려고 수고할 필요 없이 생년월일, 나이, 성별, 고향이 수치화해 있는 주민번호와 이름, 개인 휴대폰 번호, 주소까지 다 받아 보관하고 있었고, 실명확인 등을 통해서 끊임없이 개인식별정보를 확인·유통하고 있는데, 미국이나 유럽처럼 데이터 분석 기법이나 역량이 발달할 이유가 없었다는 것이다.
그리고 벌어진 개인정보 유출사고. 2008년 2월 벌어진 옥션 개인정보 유출사고(1863만명)나 SK컴즈(2011년 7월, 3500만명), 넥슨(2011년 11월, 1320만명), KT(2012년 7월, 870만명) 등만 더해도 대한민국 전체 인구 수를 훌쩍 넘긴다. 김기창 고려대 법학과 교수는 “국가가 일률적으로 번호를 매겨 국민을 관리하는 주민번호와 같은 것을 인터넷에서 개인식별 수단으로 사용하도록 한 나라는 전 세계 어디에도 없다”며 “빅데이터에 고유한 프라이버시 문제와는 별도로 국가가 어처구니없는 정책으로 개인정보 유출을 방조해 왔고, 이 문제가 한국에서 빅데이터 활성화에 결정적인 걸림돌이 되고 있다는 것을 지적하지 않을 수 없다”고 말했다.
미국에서 빅데이터가 활성화할 수 있었던 전제는 소비자 데이터베이스 업체들의 활성화다. 송민정 연구원은 “미국의 경우 공공기관은 옵트인, 즉 사용자 동의나 등록을 통해서만 정보를 사용할 수 있는 방식으로 까다롭게 설정하지만, 민간기관 사이에서는 옵트아웃, 즉 자신의 정보사용 요구를 거부하면 사용할 수 없는 방식이기 때문에 데이터의 자유로운 거래가 가능했다”고 말한다.
빅데이터 업계나 전문가들은 차제에 개인정보보호법 조항의 개정이 필요하다고 보고 있다. 현행 개인정보보호법 2조 1항의 개인정보 규정에는 성명, 주민번호, 영상 등 ‘개인을 알아볼 수 있는 정보’뿐 아니라 ‘다른 정보와 결합해서 쉽게 알아볼 수 있는 정보’까지 포함하도록 되어 있는데, 이 규정을 ‘개선’할 필요가 있다고 주장한다.
http://newsmaker.khan.co.kr/khnm.html?mode=view&code=115&artid=201305070950201&pt=nv
[개인정보, 빅데이터 시대에 더욱 빛난다]
2013년이 APT(지능형 지속 위협)에 대한 이슈로 뜨거웠다면, 2014년은 개인정보 보호 이슈로 인해 뜨겁게 흘러가고 있다. 연 초부터 발생한 카드3사 고객정보 유출사고를 시작으로 KT, 천재교육 등 그야말로 각지각처에서 굵직한 개인정보 유출사고가 이어지고 있기 때문이다. 이에 국민들은 개인정보 수집 정책과 보안 대책에 많은 비난과 비판 여론을 쏟아내고 있으며, 정부는 ‘주민번호 수집 금지’를 비롯한 기존 법제도 정비와 개인정보 침해사고에 대한 처벌 강화 등 대책 마련에 나섰다.
그러나 빅데이터 시대에 접어들면서 개인정보를 보호만 하기 보다는 적절히 활용하는 것 역시 필요하다는 주장들도 이어지고 있다.
개인정보를 활용하면 개인별 맞춤형 제품 및 서비스를 제공하는 새로운 비즈니스를 창출할 수 있기 때문이다. 최근 정부도 이러한 의견을 반영해 ‘빅데이터 개인정보보호 가이드라인’을 제정하려 하고 있다. 빅데이터 시대 개인정보, 과연 활용할 수 있을까.
빅데이터 시대, 개인정보 중요성 증대
최근 몇 년 동안 IT 업계의 화두는 단연 빅데이터다. 빅데이터란 데이터의 생성이나 주기, 양, 형식 등이 매우 방대해져서 기존 방식으로는 수집이나 저장, 검색, 분석 등이 어려운 데이터를 의미한다.
특히 이전까지는 데이터로 취급하지 않았던 것들도 이제는 엄연한 데이터로 인정받게 되며 그 규모는 더더욱 커지고 있다. 특히 무선 네트워크와 모바일 기기의 발달로 인해 SNS 등 개인들이 생성하는 데이터의 양도 급속도로 증가하며 빅데이터는 더욱 빅(BIG)해지고 있다.
▲ 데이터 생성 폭증의 원인인 모바일 데이터 트래픽이 연평균 61%씩 증가할 것으로 전망됐다. (출처: 시스코) |
빅데이터가 주목받고 있는 이유는 단순하다. 데이터 속에 필요한 것이 있기 때문이다. 많은 데이터를 모으고 분석을 통해 그 속에서 어떤 사회현상에 대한 어떤 법칙 등을 발견하고 통찰력(Insight)을 찾아서 그에 대응하는 조치를 취한다. 기업 입장에서는 문제를 해결하고 수익을 추구하는 쪽으로 이용하는 것이다.
이런 빅데이터 시대를 맞아 개인정보의 중요성이 점차 높아지고 있다. 기업들은 자신들의 뜻대로 제품이나 서비스를 개발하는 것이 아닌, 어떻게 하면 고객들에게 더 어필할 수 있고, 고객들의 구매 욕구를 자극할지를 고민하고 있다. 그렇기에 시장조사나 경쟁기업 제품 분석 등 다양한 방식으로 제품을 개선하고 서비스를 출시하고 있지만, 무엇보다 중요한 것은 고객들이 관심 있어 하거나 원하는 제품, 서비스를 출시하는 것이기에 이를 파악하기 위한 방법으로 눈을 돌리게 됐다. 그것은 바로 고객들의 정보를 활용한 제품과 서비스를 만드는 것이었다.
끊임없는 개인정보 유출사고…보호 정책 강화로 이어져
그러나 올해 초부터 끊임없이 발생하고 있는 개인정보 유출사고는 이런 흐름에 찬물을 끼얹는 역할을 했다. 지난 1월 발생한 카드3사 고객정보 유출사고는 무려 1억 건에 달하는 고객정보가 유출되며 국가적으로 큰 파장을 일으켰고, 지난 3월 KT도 해킹을 당해 보유하고 있던 1,200만 명의 고객정보가 유출되는 사고를 당했다. 특히 KT는 지난 2012년에도 해킹으로 인해 870만 명의 고객정보가 유출됐던 적이 있었던 만큼, 그동안 고객들의 개인정보 보호 조치 이행을 제대로 하지 않았다는 비난을 피할 수 없었다.
카드3사와 KT 이외에도 여러 기업 및 단체에서 지속적으로 개인정보 유출사고가 발생해온 만큼, 여론은 개인정보를 더욱 보호해야 한다는 입장으로 돌아서버렸다. 특히 개인정보 유출로 인한 금융사기 등 2차적인 피해가 늘어나면서, 주민번호 수집이나 제3자에 대한 정보제공과 같이 개인정보를 수집하고 관리하는 정책에 대해 많은 불신들이 발생했다.
상황이 이렇게 되자 정부는 결국 개인정보를 한층 보호하는 방향으로 법을 정비하기 시작했다. 무엇보다 가장 큰 변화는 법령에 구체적인 근거가 있는 경우를 제외하곤 원칙적으로 주민번호를 수집하지 못하게 한 것이다.
주민번호는 그동안 행정서비스를 비롯해 금융, 의료, 복지 등 전 사회에서 개인을 식별하기 위한 기초 자료로 널리 활용되어 왔다. 그러나 이런 주요한 개인 식별 정보인 주민번호는 그동안 기관이나 기업들의 관행적인 수집 및 제3자에 대한 무단 제공 등으로 인해 과도하게 오·남용되어 왔고, 관리 부분에 있어서도 취약점이 많아 유출의 우려가 높은 편이었다. 이번 법 개정은 이를 원천적으로 봉쇄하겠다는 정부의 의지가 반영됐다.
▲ 주민번호 대신 사용할 수 있는 마이핀 서비스(출처: 공공아이핀센터) |
만약 주민번호를 안전하게 관리하지 않아 유출된 경우 해당 유출 규모와 피해확산 방지를 위한 후속조치 이행 여부 등을 고려하여 최대 5억 원의 과징금이 부과되며, 공공기관이나 민간사업자가 법령 근거 없이 주민번호를 수집한 경우에는 해당 위반 횟수와 그 동기 및 결과 등을 고려하여 최대 3천만 원의 과태료가 부과된다.
개인정보 활용 논란 재점화
정부가 이처럼 개인정보를 보호하기 위한 방향으로 정책들을 내놓고 있지만, 한편으로는 개인정보를 적절하게 활용하여 산업을 육성시키기 위한 방안 또한 준비하고 있다. 지난해부터 제정을 추진하고 있는 ‘빅데이터 개인정보보호 가이드라인’이 바로 그것이다.
최근 IT 기술의 발달로 금융기관, 기업 등은 방대한 양의 개인정보를 수집·분석하여 맞춤형 광고나 마케팅 전략 수립 등에 활용하고 있지만, 정보주체의 동의가 없는 상태에서 개인 식별 가능성이 있는 정보도 수집되고 이용됨에 따라 개인정보가 오·남용될 위험성이 높아지고 있다. 이에 정부는 빅데이터 서비스 활성화와 정보주체의 개인정보 보호를 균형 있게 규율할 수 있도록 할 필요성이 있었으며, 그것을 ‘빅데이터 개인정보보호 가이드라인’으로 구현하고자 했다.
무엇보다 가이드라인은 빅데이터 산업의 활성화와 개인정보의 수집 및 이용을 투명하게 확보하는 것을 목표로 하고 있다. 그렇기에 현행 법률에서 명확히 규율하고 있지 않은 개인정보의 조합, 분석, 생성과 관련해 안전한 개인정보 활용방안을 제시하고자 했으며, 사전 동의획득이 곤란한 정보의 수집·이용에 대해서는 옵트-아웃(Opt-Out) 방식을 적용하고 수집 사실을 정보주체가 확인할 수 있도록 공개한다는 방침이다.
세 차례에 걸친 공개토론회를 비롯해 시민단체들과의 협의를 통해 지난 8월 제정될 예정이었던 가이드라인은 개인정보보호위원회의 재검토 권고로 인해 다시금 논의에 들어갔다. 현행 개인정보 보호 관련법인 ‘개인정보보호법’과 ‘정보통신망법’은 정보주체의 자기결정권을 보장하기 위해 개인정보 수집 동의를 거부할 권리가 있지만, 가이드라인은 옵트-아웃 방식을 적용해 현행법에 부합하지 않는다는 이유에서다.
한국법제연구원도 “빅데이터가 대세라도 개인정보보호는 그 중요성이 간과되어서는 안 된다”며, “빅데이터와 개인정보의 문제에 관해 가이드라인이 아닌 입법적 방안을 모색해야 한다”고 지적하기도 했다.
개인정보 보호 없는 활용, 빅브라더 탄생의 시작
조지오웰의 소설 ‘1984’에 등장하는 ‘빅브라더’는 독재체제를 유지하기 위해 텔레스크린 장치를 이용하여 사람들의 일거수일투족을 감시한다. 개인들은 통제되고 억압받고 있으며, 항상 감시받고 있기 때문에 함부로 말을 할 수도 없다.
개인정보가 보호되지 못할 경우 이러한 빅브라더의 출현은 시간문제일까? 지난 8월 5일 여의도연구원은 ‘담벼락에 쓰인 대한민국: 2014 상반기 페이스북 빅데이터 분석보고서’를 발표했다. 보고서는 대표적 SNS인 페이스북을 통해 국민들이 어떤 것에 관심을 갖고 있으며, 또 그에 대해 어떤 생각을 하는지를 파악하여 국가 정책에 반영하기 위한 목적으로 작성됐다.
그러나 이 보고서는 과도하게 많은 개인 정보를 수집했다는 의혹이 제기되며 빅브라더 출현 논란에 휘말리기도 했다. 비록 블라인드 처리를 하긴 했지만, 페이스북 이용자들의 글을 인용하면서 김○○, 이○○처럼 이름을 언급했으며, 사용자 계정 500만 개를 대상으로 전체공개 된 글 3,100만 건이라는 방대한 데이터가 쉽사리 수집되기도 힘들다는 이유에서다. 특히 집권여당 정책연구소인 만큼, 개인 사찰까지 이뤄지는 것이 아닌지에 대한 우려의 목소리도 나왔다.
▲ 여의도연구원이 발간한 보고서. 과도한 개인정보를 수집한 것이 아니냐는 논란을 불러 일으켰다. |
상황이 커지자 여의도연구원은 “수집된 데이터도 공개된 글과 성별, 그리고 사용자의 계정으로 사용한 닉네임 일부분 그리고 국가 정보 등이며, 개인을 식별할 수 있는 어떠한 정보도 수집하지 않았다”고 해명했다. 그리하여 이번 논란은 해프닝으로 끝났지만, 전체공개 글이라 하더라도 많은 정보가 사용자 동의 없이 수집되고 이용된 것에 대해서는 앞으로도 논란의 여지가 남아있다.
시민단체들이 ‘빅데이터 개인정보보호 가이드라인’에 대해 문제 삼고 있는 것도 이러한 부분이다. 가이드라인이 개인정보의 보호보다는 활용에 더 많은 초점을 맞췄다는 것이다. 이를 통해 정부나 기업에서 합법적으로 이용자의 동의 없이 많은 개인정보를 수집할 수 있게 되면, 조지오웰의 소설 ‘1984’에서 등장하는 ‘빅브라더’가 출현하는 것도 시간문제이기 때문이다.
개인정보 보호, ‘잊혀질 권리’로 한층 강화?
지난 5월, 유럽사법재판소(ECJ)에서는 ‘잊혀질 권리’에 대해 인정하는 판결을 내렸다. 잊혀질 권리는 제3자에 의해 작성된 개인의 민감 정보를 포함한 인터넷 게시물(뉴스 기사 등)을 시간이 경과한 뒤 정보주체가 해당 게시물에 접근할 수 없도록 하는 권리이자, 해당 게시물을 삭제토록 하여 게시물로부터 자유로울 수 있는 권리를 의미한다. 다만 이번 ECJ의 판결은 원 게시물의 삭제가 아닌, 해당 게시물을 검색할 수 있는 포털(구글) 상에서 검색이 불가능하도록 막는 조치만 인정됐다.
이 판결은 유럽 내 28개국에서만 유효하지만, 해당 판결 이후 파장은 전 세계로 퍼지고 있다. 실제로 ECJ의 판결에 따라 구글이 삭제 요청을 받기 시작한 지 하루만에 1만 2천여 건의 신청이 쇄도했던 것으로 나타났다.
▲ 유럽사법재판소(ECJ)가 잊혀질 권리를 인정하는 판결을 내렸다. 과연 우리나라에도 잊혀질 권리가 적용될 수 있을까? |
이에 국내에서도 잊혀질 권리 적용 여부에 대한 찬반 논란이 뜨겁다. 개인정보의 보호와 일반 대중의 알 권리 등 기본권들이 충돌하고 있기 때문에 쉽사리 어느 한 쪽만을 편들기는 어려운 상황이다.
법률 전문가들은 적용을 하기 전에 충분한 사회적 합의와 법률적 검토가 필요하다고 주장한다. 특히 잊혀질 권리가 공인들이 자신의 과거를 세탁하고자 하는 수단으로 남용되거나 오용될 수 있으며, 포털 등 검색사업자에게도 부담이 될 수도 있어 주의가 필요하다는 입장이다.
식별 불가능한 개인정보로 마케팅 활용 가능
개인정보 보호에 대한 논의가 점차 강화되고 있는 가운데, 빅데이터 시대를 맞아 개인정보를 활용하는 것은 어려운 일일까? 개인정보에 대해 다시 한 번 살펴보자.
개인정보 보호 관련법에 따르면 우선 개인정보는 ‘생존하고 있는 개인에 대한 정보로 성명·주민등록번호 등 개인을 알아볼 수 있는 정보와, 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보들을 포함하는 것’이라고 규정하고 있다.
쉽게 결합한다는 의미에 대해 해석상 논의가 발생할 수 있지만, 개인을 식별할 수 없는 정보들에 한해선 법적인 보호 의무가 발생하지 않는다는 것을 알 수 있다.
미국은 이런 비식별 개인정보를 잘 활용하는 대표적인 국가다. 여고생의 임신 사실을 가족보다 먼저 알아차리고 그에 맞는 쿠폰 정보를 보낼 정도로 개인정보를 활용한 마케팅을 진행하고 있다.
그러나 미국에서도 개인의 신용카드 정보나 SSN(Social Security Number) 등을 마케팅에 활용하지 않는다. 해당 정보들을 보관하고 있다가 자칫 유출이라도 되면 그 뒷감당이 더욱 힘들기 때문이다. 반면 정보들을 취합한 통계자료나 상품 구매기록, 성향 등은 적극적으로 활용한다. 한 마디로 민감한 정보만 아니면 자유롭게 활용이 가능한 것이다.
유혁 Willow Data Strategy 대표가 본지 연재를 통해 비식별 개인정보 활용에 대한 것을 설명한 것을 보면 어느 선까지 활용할 수 있을지 알 수 있다.
아침마다 같은 커피숍에 들리는데 그 주인과 친하게 되어서 그가 늘 나의 성향대로 커피를 만들어 준다면 그건 서로에게 도움이 되는 일이다. 데이터베이스 마케팅은 그러한 맞춤형 서비스를 수백만 명을 대상으로 한다는 것이 다를 뿐이다. 그런데 만약에 그 커피숍 주인이 커피를 제공하는데 전혀 필요하지 않은 개인정보까지 캐묻기 시작한다면 얘기가 확 달라진다. 그런 경우 대부분의 사람들은 그런 정보를 제공하기를 거부하고 당장 거래처를 옮길 것이다. 그러한 적정선은 모두들 묵시적으로 알고 있는 것이며, 데이터를 다루는 사람들이 항상 기억해야만 할 일이다. |
개인 맞춤형 서비스의 증가
누구나 한 번쯤은 쇼핑몰에서 클릭해본 제품, 그리고 그와 연관된 제품이 다음 쇼핑몰 방문 시 광고로 뜨는 것을 본 경험이 있을 것이다. 이것은 해당 쇼핑몰이 사용자가 방문한 내역, 즉 인터넷 쿠키를 활용하고 있기 때문이다.
▲ 인터넷 쿠키를 활용한 개인 맞춤형 서비스 |
온라인 쇼핑몰들은 이처럼 비식별 개인정보를 활용해 고객들에게 맞춤형 서비스를 제공하고 있다. 고객이 어느 상품을 클릭했는지, 어떤 상품을 구매했는지, 어떤 후기를 남겼는지 등을 종합적으로 수집하고 분석해 해당 고객이 희망하는 것에 대해 적절한 상품을 추천한다.
이는 축적된 정보를 통해 고객이 클릭하는 상품은 구매하기 위함이거나 관심이 있기 때문이라는 분석 결과를 도출했기 때문. 그렇기에 고객이 상품을 구매하지 않았더라도 차후 방문 시 해당 상품을 구입하도록 유도하는 광고를 배치한다.
이밖에도 고객이 관심을 갖는 카테고리를 설정했을 경우 해당 카테고리에 있는 새로운 제품이 출시되거나 할인 행사 등을 진행할 때 고객에게 해당 사실을 알리며 방문을 유도하고 구매할 수 있도록 한다.
이처럼 사용자들의 행동 패턴 등을 활용한 개인 맞춤형 서비스들이 비식별 개인정보를 활용한 마케팅으로 활용되고 있으며, 사용 분야도 점차 넓어지고 있다.
“고객 행위 정보를 바탕으로 고객에게 더 큰 즐거움 선사” 길병일 네오위즈인터넷 기획그룹장 지난 8월 네오위즈인터넷이 서비스하는 음악포털 ‘벅스’가 ‘벅스 4.0 앱’을 출시했다. 또한 이에 맞춰 ‘당신을 듣습니다’라는 슬로건을 내걸고, 개인별 성향에 맞춘 차세대 음악 서비스 ‘개인화 추천’ 기능을 제공하기 시작했다. ‘개인화 추천’ 기능은 말 그대로 이용자의 감상 및 다운로드 기록, 검색 히스토리 등의 사용 패턴을 정밀하게 분석해 개인별 취향에 맞춘 음악을 추천해주는 서비스다. 길병일 네오위즈인터넷 기획그룹장에게 해당 서비스에 대해 상세히 들어봤다. ‘개인화 추천’ 서비스란? 벅스가 활용하는 정보는 이름이나 나이 등의 개인정보가 아닌, 순수하게 음악을 청취하거나 ‘좋아’를 누르는 등 벅스 사용 패턴뿐이다. 좋아하는 아티스트의 곡은 다른 곡보다 자주 듣는 것과 같이, 음악 청취 패턴은 자연스럽게 음악적 취향을 보여준다. 벅스를 사용하는 여러 가지 행위를 분석하여 개인의 취향에 딱 맞는 음악을 추천하는 것이 개인화 추천의 핵심이다.
서비스하고 있는 개인화 추천 시스템으로는 ‘뮤직4U’가 있다. ‘뮤직4U’에서는 선호하는 아티스트와 아주 유사한 느낌의 아티스트를 추천하고, 내가 자주 듣는 분위기의 음악과 비슷한 분위기의 음악, 그리고 작년 이맘 때 들었던 음악, ‘좋아’를 누른 아티스트의 새로운 앨범 등 다양한 개인화 추천을 제공하고 있다. 고객이 벅스에서 하는 작은 행위들도 아주 의미 있는 정보로 받아들이면, 그 소중한 정보를 바탕으로 다시 고객에게 더 큰 즐거움을 제공할 수 있다고 생각한다. 물론 음악을 많이 듣거나, ‘좋아’를 많이 하는 등 벅스를 열심히 써주시는 고객에게는 더욱 정교한 추천이 가능하다. 개인화 추천 서비스를 위해 활용하는 고객 정보는? 개인화 추천 서비스 제공을 위해서 사용자로부터 청취기록과 ‘좋아’한 아티스트/뮤직PD/앨범/곡 정보를 수집하며, 내 앨범에 저장한 곡 정보, 다운로드 받은 곡 정보 등을 수집해서 활용하고 있다. 서비스 시행 이전과 이후 차이점이 있다면? 라디오 서비스의 경우 벅스 4.0 출시 후 이전 버전에 비해 사용자들로부터 긍정적인 피드백을 많이 받고 있다. 벅스 4.0 이전 버전에 비해 우선 라디오 사용자가 약 35% 증가했으며, 생성된 라디오 채널에서 자동 선곡되는 곡에 대해 ‘좋아요’ 버튼을 클릭한 수가 약 100% 증가했다. 또 생성된 라디오 채널의 종류도 다양해지고 있다. 이전 버전에서는 주로 종합, 발라드/R&B나 클럽/댄스가 주류를 이루었던 반면, 현재는 다양한 장르/테마 채널을 생성하여 라디오 서비스를 청취하는 패턴을 보이고 있다. 개개인의 다양한 음악취향에 맞게 잘 세분화하여 서비스를 제공하고 있다고 판단한다. 서비스 시행에 어려움이 있었다면? 우선 방대한 양의 데이터를 기반으로 서비스를 제공해야 하기 때문에 사용자의 어떤 행위를 주요지표로 정해야 할지, 또 각 지표마다 어느 정도의 가중치를 주어야 할지 등 추천 알고리즘 구축을 위해 최선의 기준을 만들어내는 것이 참 어려운 과정이었다. 그리고 이렇게 마련된 알고리즘이 최상의 퍼포먼스를 낼 수 있도록 구조화하는 것 역시 어려운 작업이었다. 해당 서비스를 한층 더 강화시키기 위해 필요한 정보가 있다면? 개인의 데모그래픽 정보(연령, 성별, 위치 등)를 활용하여 추가적인 가치를 제공하기 보다는 사용자의 행위기반 정보를 좀 더 정교화하게 분석해서 추천품질을 높이는데 당분간 주력할 계획이다. 사용자의 명시적인 행위 기반의 정보(청취, 다운로드, 좋아요 클릭 등)로 추정해볼 수 있는 숨어있는 사용자의 음악이용 패턴을 찾아내 보다 정교하고 향상된 추천품질을 제공할 수 있도록 관련 연구를 시작했다. 향후 계획은? 하반기에 개인화 추천 서비스에 대해 고도화를 시킬 계획이다. 뮤직4U에서는 현재 개인화된 추천 콘텐츠를 5개 형태로 제공하고 있는데 이를 연말까지 10개 이상으로 늘려 서비스를 제공할 계획이다. 또한 벅스라디오를 포함해서 추천품질과 퍼포먼스 향상을 위해 보유하고 있는 메타데이터(아티스트/앨범/곡)를 정비하고 개인화 추천 알고리즘을 개선할 계획이다. 이러한 일련의 작업을 진행해서 올 연말 또는 늦어도 내년 초에는 보다 업그레이드된 뮤직4U, 벅스라디오 서비스를 사용자가 경험해볼 수 있도록 준비하려 한다. |
개인정보 보호와 활용 절충한 입법적 장치 필요
이미 널리 알려진 서울시 심야버스 노선은 심야시간대 시민들의 통화량을 분석하여 효율적인 버스 노선을 계획했기 때문에 성과를 거둘 수 있었다. 심야 통화량 분석은 개인들의 통화 정보를 취합하여 통계적인 수치로 활용한 것으로, 해당 자료만으로는 개인에 대한 식별은 불가능하다.
벅스 또한 개인을 식별할 수 없는 정보를 활용한 마케팅으로 긍정적인 효과를 거뒀다. 고객의 이용 패턴과 성향을 분석한 개인 맞춤형 서비스로도 이용자들에게 만족감을 제공하는 한편, 이용자수도 증가하는 두 마리 토끼를 동시에 잡는데도 성공했다.
이처럼 비식별 정보를 활용한 맞춤형 서비스가 그 효과를 입증해내고 있는 만큼, 앞으로도 이와 비슷한 사례들은 증가할 것으로 예상된다. 개인정보 보호 이슈가 중요해지고 있지만, 이를 보호하면서도 충분히 개인 맞춤형 서비스를 제공할 수 있다는 것이 앞선 사례들을 통해 증명되고 있기 때문이다. 업계에서 개인정보를 활용할 수 있는 방안이 조속히 마련되기를 기대하는 이유도 여기에 있다.
이처럼 개인정보를 활용한 비즈니스가 성공 모델을 이어나갈 경우, 개인정보는 빅데이터 시대에 더욱 빛나는 자원이 될 것임은 분명하다.