빅데이터에서 데이타 사이언스로_투이컨설팅_김인현 대표

<빅데이터 논의의 오류> 빅데이터 시대라고 한다. 빅데이터 관련 행사가 잇달아 열리고, 빅데이터가 무엇인가에 대해서 많은 사람들이 이야기하고 있다. 빅데이터가 화두로 떠오르게 된 핵심 기술로 하둡이 있다. 하둡의 상징은 코끼리이다. 아이러니컬한 것은 빅데이터를 주장하는 사람들마다 코끼리를 만지는 일곱 명의 장님처럼 각각 관점이 다르다는 것이다. 빅데이터는 분명 많은 기업들에 새로운 기회가 될 것이다. 그러나, 빅데이터에 대한 논의가 제대로 이루어져서, 올바른 방향을 제시할 수 있어야 한다. 첫째, 빅데이터의 정의가 명확해야 한다. 빅데이터를 트위터 등 소셜네트웍에 존재하는 데이터 분석으로 이야기하는 경향이 있다. 또한, 최근 정부 부처에서는 공공DB 공유 촉진을 위한 사업을 빅데이터로 표현하는 경우도 있다. 이는 분명 잘못된 것이다. 빅데이터는 기업이 자체 데이터베이스에 보관하거나 관리할 필요가 있는 데이터로서, 기존 관계형 데이터베이스 기반 기술로 관리하고 운영할 수 없는 데이터를 뜻한다. 트위터 등의 데이터는 소셜데이터로, 공공DB는 오픈데이터로 부르는 것이 맞다. 또한, 빅데이터를 비정형데이터라고 표현하기도 하는데, 이 또한 잘못된 표현이다. 빅데이터는 거래처리의 결과로서 발생하는 데이터가 아닌 데이터를 뜻한다. 즉 콜센터 또는 웹로그 등과 업무 공정에서 발생하는 로그데이터 등이 빅데이터의 주요 원천이다. 이러한 데이터는 대부분 구조를 정할 수 없는 비구조적 데이터(unstructured data)인 것은 맞지만, 시스템이 도입된 경우는 구조를 갖는 데이터(structured data)로 발생하기도 한다. 둘째, 빅데이터는 이제 활용의 관점에서 바라봐야 한다. 구슬이 서 말이라도 꿰어야 보배라는 속담은 빅데이터의 경우에 딱 들어맞는다. 아무리 데이터가 많이 쌓여도, 활용하지 않으면 아무 소용이 없다. 빅데이터가 논의되기 시작한 배경에는 두 가지 갭의 영향이 자리잡고 있다. 데이터 규모의 증가를 기존 데이터 저장장치 용량이 따라잡지 못하고 있는 관리의 갭 그리고 발생하는 데이터를 충분하게 분석하지 못한다는 활용의 갭이 그것이다. 다만, 스토리지 관련 기술이 급속하게 발전하고 저장장치의 값도 날일 갈수록 떨어지는 추세이기 때문에 관리의 갭은 비교적 영향이 작다. 중요한 것은 활용의 갭이다. 데이터를 어떻게 분석할 것인가? 어떤 업무에 활용할 것인가? 분석 결과를 활용하기 위해 무엇을 갖추어야 하는가? 이런 질문들에 대해 답을 주지 못하고 있는 것이다. 데이터 분석 역량은 기업의 성과와 직결되기 때문에 활용의 갭을 줄이는 것이 매우 중요한 현안이다. <데이터사이언스의 가치> 빅데이터를 이용해서 무언가 새로운 사업을 할 수 있지 않을까? 빅데이터를 이용해서 기존에 없었던 새로운 업무를 도입할 수 있지 않을까? 이런 고민을 하는 경우를 종종 보게 된다. 빅데이터 관련 기술과 방법론의 발전은 분명 새로운 발명(invention)이다. 그러나 빅데이터를 활용하는 것은 기존의 업무를 새로운 방식으로 수행하는 것 즉 혁신(innovation)이다. 물론 빅데이터를 이용하여 새로운 비즈니스를 만들 수도 있을 것이다. 그러나, 빅데이터 활용의 주된 관심은 업무 프로세스를 어떻게 혁신할 것인가에 두어야 한다. 기업의 업무 프로세스는 1980년대 이후 몇 차례에 걸쳐 혁신되어 왔다. 비즈니스프로세스혁신은 데이터베이스와 통신 기술을 이용하여 기업 내부의 단절된 시간과 공간을 연결함으로써 기업 성과를 극적으로 향상시켰다. 2000년대에는 통합 애플리케이션 패키지 형태의 전사적 자원관리를 도입하여 기업 업무 통합성을 획기적으로 제고하고, 시장 대응 속도를 높일 수 있었다. 빅데이터 활용을 위해서는 빅데이터가 주는 가치를 정확하게 이해하여야 한다. 빅데이터는 기업의 업무 프로세스를 보다 똑똑하게 해준다. 지금까지 경영혁신은 프로세스를 보다 빨리, 보다 효율적으로 수행하는 것에 초점이 있었지만, 빅데이터를 이용한 경영혁신은 프로세스를 보다 똑똑하게 수행하게 함으로써, 경영 효과성을 높이는 데 핵심 의미가 있다. 간단한 예를 들어보자. 대부분의 인터넷 상거래 기업들은 추천엔진을 운영한다. 고객의 구매 패턴 등을 분석해서 다른 서비스 또는 제품을 권유하는 기능이다. 추천엔진이 효과적이라면 고객의 재구매와 상승구매를 촉발하여, 기업 성과를 획기적으로 높일 수 있다. 하지만, 현재 대부분의 인터넷 상거래에서 추천 기능은 별로 효과가 높지 않다. 반면 비디오 스트리밍 서비스를 제공하는 미국의 넷플릭스는 추천엔진에 집중적으로 투자해 두드러진 성공사례를 만들어냈다.  넷플릭스는 추천엔진을 통해 시청률을 75%나 상승시켰고, 경쟁 기업을 크게 앞지를 수 있었다. 추천엔진의 성능이 기업 경쟁력을 좌우한 것이다. 빅데이터는 이런 추천엔진에 가치 있는 데이터를 공급할 수 있다. 추천엔진도 얼마나 효과적인 분석능력을 갖추느냐에 따라 기업의 전략 무기인지의 여부가 갈리게 된다. 데이터사이언스는 데이터를 분석하여 가치 있는 인사이트를 도출하는 방법을 찾아내는 활동이다. 기존에도 기업들은 데이터를 분석해왔다. 그러나, 지금까지의 분석은 주로 거래의 결과 생성된 데이터를 주요 원천으로 활용하였고, 또한 발생한 사실을 요약하거나, 원인을 분석하는 주제를 다루어왔다. 관련 조사에 의하면 거래로 발생한 데이터는 기업 활동의 10~15% 정도를 반영한다고 한다. 따라서, 거래 데이터 분석에만 의지할 경우 장님 코끼리 만지기 식의 한계를 벗어날 수 없다. 지금은 모바일기기의 확산으로 개인의 정보화가 급속하게 진전되어 있고, 대부분의 기계에 컴퓨터가 내재되어 장비의 정보화도 대부분 완성되어 있다. 개인과 기계는 엄청난 분량의 데이터를 쏟아내고 있고, 기업이 제대로 투자만 한다면 이러한 데이터를 수집하고 보관할 수 있다. 또한 지금은 원하기만 하면 필요한 데이터를 얻을 수 있는 세상이다. 날씨, 경제지표, 교통, 인구통계 등 데이터를 저렴한 비용으로 빠르게 얻을 수 있다. 따라서, 분석을 위한 데이터 범위의 한계는 거의 극복된 상태이다. 일어난 사건들을 분석하는 것만으로는 가치가 별로 없다. 앞으로 일어날 사건을 예측하여 어떤 대응이 효과적인지 알아낼 수 있어야, 의사결정에 활용할 수 있다. 과거에는 컴퓨터로 분석할 수 없었던 비구조적 데이터를 분석 가능한 구조적 데이터로 변환할 수 있는 기술도 개발되었다. 대규모 데이터를 거의 실시간으로 분석할 수 있는 데이터 처리 기술도 발전하였다. 보다 중요한 발전은 분석을 위해 필요한 소프트웨어가 오픈소스로 운영되면서 분석 기법의 공유와 재사용이 급속하게 촉진되고 있다는 점이다. 누구나 상상할 수 있다면, 원하는 분석 방법을 얻을 수 있고, 또한 이를 자신의 독자 시스템에 꿰어서 운영할 수 있는 생태계가 만들어지고 있다. 데이터는 원하면 얻을 수 있고, 분석은 상상하면 수행할 수 있다. 이런 점에서 기존에 수행했던 데이터마이닝이나, OLAP분석 등으로는 꿈도 꿀 수 없었던 일들이 가능하게 되었다. 이를 수행하고 안하고는 선택의 문제가 아니다. 사람의 지능지수는 태어나는 순간 90% 이상 결정된다고 하지만, 기업의 지능지수는 데이터사이언스의 도입 성과에 따라 결정되기 때문이다. 머리가 나쁜 기업은 머리가 좋은 기업을 절대로 이길 수 없기 때문이다. <데이터사이언티스트!> 대부분의 기업들은 지금까지 프로세스 혁신과 IT투자를 통해 프로세스 자동화 및 혁신 그리고 데이터 품질과 통합에 투자해왔고,성과를 얻었다. 하지만 프로세스의 성과는 프로세스를 빠르게 그리고 보다 많은 일을 처리해내는 것만으로 결정되지는 않는다. 다양한 상품을 빠르게 그리고 대량으로 만들어낸다 하더라도, 시장에서 히트치는 상품을 만들어내지 못한다면 경영실패로 이어질 것이다. 창구에서 또는 콜센터에서 고객 대기시간을 최소화하고, 직원 생산성을 아무리 높여도 이것이 고객의 구매 행위로 이어지지 못한다면 수익 증대에는 전혀 도움이 되지 않는다. 데이터사이언티스트는 기업 활동의 효과성을 극적으로 높이는 사람이다. 이를 위해 기업의 핵심질문을 알아내고, 필요한 데이터를 확보하여, 성공적인 분석을 개발하고, 프로세스에 접목시켜, 실제 적용하는 일련의 업무를 수행한다. 데이터사이언티스트는 빅데이터를 가장 잘 활용할 수 있는 기업의 모습을 설계하는 사람이다. 따라서 데이터사이언티스트는 다음과 같은 역량을 갖추어야 한다, - 비즈니스모델링 기업 활동에 어떤 분석이 있는지 찾아내고, 경쟁력에 직접 영향을 미치는 핵심 분석을 정의할 수 있어야 한다. 이를 위해서는 기업의 비즈니스 모델을 상세하게 분석하여 해당 기업이 제공하고자 하는 가치가 무엇인지, 그 가치를 지속적으로 유지하고 강화하기 위한 핵심 가정과 이론이 무엇인지 규명할 수 있어야 한다. - 데이터엔지니어링 기업 내부의 거래 데이터와 비거래 데이터 그리고 소셜데이터와 오픈데이터 등의 외부 데이터를 확보하고 축적 및 가공하는 방법을 설계할 수 있어야 한다. 구조적 데이터와 비구조적 데이터를 직접 다루면서 필요한 분석을 위한 데이터 확보 및 공급 방법을 정의할 수 있어야 한다. 또한, 전체적으로 통합된 데이터아키텍처를 유지하고 데이터품질을 모니터링하고 지속적으로 개선할 수 있는 방안을 제시해야 한다. - 분석 모델링 통계 및 수리모델링, 시뮬레이션, 최적화 등 다양한 분석 및 의사결정 기법을 자유롭게 사용할 수 있어야 한다. 분석 대상을 모형화하고 유효한 결과를 얻기 위한 방식을 탐색하고 찾아낼 수 있어야 한다. 분석 모델 패턴을 관리하고 통제하며, 지속적으로 개선하는 활동도 수행하여야 한다. 분석 과정 또는 결과를 어떻게 보여주는 것이 최적인가를 정의하고 설계할 수 있도록 데이터 비주얼라이제이션 및 비주얼 애널리틱 역량도 필수이다. - 전략 기획 기업이 데이터사이언스를 기획하고, 도입하고, 적용하고, 확산하고, 진화시키는 일을 한번에 수행할 수는 없다, 또한 빅뱅 방식으로 대규모 범위를 추진해서는 실패할 가능성이 매우 크다. 따라서, 전체를 하나의 그림으로 표현할 수 있는 아키텍팅 능력과 우선순위를 판별하고 포트폴리오 접근을 위한 기획 능력이 필요하다. 조직과 프로세스의 변화관리 능력도 중요하다. 지금까지 데이터사이언티스트라는 직무는 존재하지 않았다. 데이터사이언티스트는 빅데이터 시대가 되면서 비로소 등장하였다. 따라서, 대부분의 기업은 데이터사이언티스트를 확보하고 있지 못하다. 데이터사이언티스트의 필요성은 더욱 커질 것이기 때문에, 앞으로 데이터사이언티스트 부족현상은 더욱 심화될 전망이다. 더욱 심각한 문제는 데이터사이언티스트를 양성시키기 위한 노력이 제대로 이루어지고 있지 않다는 것이다. 데이터사이언티스트는 통계학을 전문적으로 공부한다거나, 하둡 등 빅데이터 요소기술을 배운다거나, 또는 ‘R’ 의 전문성을 확보하는 것만으로는 충분하지 않다. 비즈니스모델링과 데이터, 그리고 프레딕티브 애널리틱과 비쥬얼 애널리틱, 빅데이터 기술, 데이터사이언스도입 전략 등을 두루 가르치는 과정이 필요하다. 데이터사이언티스트로 육성할 수 있는 잠재역량으로 누가 바람직한가에 대해서는 다양한 주장이 있다. 데이터마이닝 등을 수행했던 분석전문가들이 1순위 후보로 꼽히는 경우가 많다. 하지만, 데이터사이언스의 도입은 기존의 분석 활동과는 전혀 다른 차원이기 때문에 완전히 새로 접근하는 자세가 필요하다. 분석전문가들이 지식으로는 다소 유리할 수도 있지만 고정관념에 빠져서 기존의 분석방식을 고집한다면, 데이터사이언티스트 후보라기보다는 변화시켜야 하는 후보 1순위가 될 수도 있다. 데이터 사이언티스트로서 갖추어야 하는 역량은 새롭게 습득해야 하는 전문분야가 많기 때문에, 비즈니스 도메인 전문가, 데이터 전문가, 분석 전문가라면 누가 더 유리하다고 하기는 어렵다. 다만, 완전히 새롭게 시작하기보다는 한 분야라도 충분한 경험이 있는 사람이 보다 바람직할 것이다. <끝>