|
beyond reason
조성준 교수님께 깊은 감사를!!
빅데이터는 인공지능(artificial intellengence) 시대를 움직이는 새로운 자원이자 화폐다.
일상의 모든 것이 데이터가 되는 세상
10년전부터 사물인터넷(internet of things, IoT) 및 소셜미디어에서 발생하는 데이터가 폭발적으로 증가하고 컴퓨터의 계산능력 또한 획기적으로 향상되었으며 이와 함께 머신러닝 알고리즘도 고도화되었다. ... 휴대폰의 전원을 켜는 순간 우리의 위치 데이터가 생성되고 통화와 문자사용 내역이 데이터화되며 네비게이션 앱을 켜는 순간 우리의 위치와 속도데이터가 저장된다. 주식매매, 은행 입출금 모두 데이터다. 구글과 네이버에 검색하는 단어, 페이스북에 올리는 사진과 좋아요를 누르는 패턴, 인스타그램에 올리는 사진과 해시태그 모두 데이터다. 이메일과 각종 문서도 모두 텍스트 데이터다. 이밖에도 병원이용 내역, 마트구매내역, 온라인 쇼핑 내역 등 모두가 충분히 활용가치가 있는 데이터다.
.. 빅데이터가 무엇인지 어디에서 생성되고 어떻게 보관되는지 그리고 빅데이터를 우리는 어떤 관점에서 바라보아야 하는지에 대한 기본적인 지식을 전해줄 것이다. .. 빅데이터가 인사이트로 변환되는 과정 이는 마치 식재료가 요리고 바뀌는 과정과 마찬가지다.
모든 사고, 행동, 의사결정을 big data -> insight로 하기
기업의 구성원이 big data기반 -> insight로 decision making(의사결정)을 하는 조직
치료 매뉴얼보다
상담(라뽀) 매뉴얼이 더 중요하다
1부. 미래를 여는 기술 '빅데이터란 무엇인가?'
빅데이터는 요리재료와 같다. 다양한 재료가 대량으로 존재한다. 손님(의사결정자)이 요리사(데이터 과학자)에게 무슨 요리(인사이트)를 먹고 싶은지 이야기하는 것과 같다.
빅데이터의 특징은 데이터의 양이 많다는 것이다. 실시간으로 발생하여 끊임없이 밀려오는 스트림 데이터(stream dat)처럼 생성속도가 빠르며 숫자와 같은 정형 데이터 외에 텍스트, 이미지, 동영상같은 비정형 데이터들이 다양하다.
정형 데이터 - 숫자
비정형 데이터 - 그림, 텍스트, 동영상
3V - volume, velocity, variety(양, 속도, 다양성) 특성을 지닌 빅 데이터
1) 데이터의 양(volume)
10년전 빅데이터와 오늘날의 빅데이터, 10년후의 빅데이터를 비교해보라.
대량의 데이터는 어디에서 나오는가? 휴대폰을 켜고 검색을 하고 클릭을 하고 네비게이션을 켜고 이 모든 것은 데이터가 된다. 지하철이나 버스를 이용할 경우 사용한 교통카드에 출발지점과 도착지점, 시간 등이 데이터로 쌓인다. 점심에 식당에서 식사를 하고 카드로 결제하면 결제시간, 종류, 금액, 가맹점코드 데이터가 신용카드사에 생성된다. 주식으로 거래를 했다면 증권사와 증권거래소에 역시 데이터가 생성된다. 병원, 영화관람 .. 우리의 일상이 모두 데이터화된다.
구글, 페이스북, 인사트그램이 소셜미디어에도 빅데이터가 넘쳐난다. .. 이와같은 데이터들은 우리가 감당하기 힘들정도의 양이다. 그래서 빅데이터의 볼륨은 나날이 스케일이 커지고 있다.
.. 빅데이터 분석을 할때 표본추출을 하지 않는다... 빅데이터 볼륨은 더이상 제한이 없어졌다.
2) 데이터 생성속도(velocity)
빅데이터는 순식간에 발생하여 한꺼번에 밀려온다. .. 네이게이션을 켜는 순간 서비스 제공업체는 빅데이터 프로세싱을 하는 것이고 우리는 그 서비스의 수혜자이며 동시에 서비스의 원천이 되는 데이터의 제공자다. 즉 나는 지금 시속 몇킬로로 가는지를 내뒤에 있는 차에게 알려주고 있는 셈이다. . 여기서 중요한 것은 실시간이다.
3) 데이터 다양성(variety)
과거에는 데이터라고 하면 숫자만을 의미했지만 이제 문서나 이미지같은 비정형 데이터가 더 많이 생성된다. .. 심지어 우리의 생각도 데이터화할 수 있다. ... 인간관계도 데이터다. ... 인풀루언서는 소셜미디어 상에서 팔로어 수가 많은 이들을 지칭하는데 각자의 영향력도 숫자로 표시되므로 이들에 대한 순위도 매길 수 있다.
소셜미디어를 점령한 텍스트 데이터
방탄소년단을 불러오는 이미지 데이터
모든 것은 숫자로 바뀌어야 데이터가 된다
IT의 선물, 빅데이터를 활용한다
IT의 발전으로 빅데이터의 저장, 분석이 가능해졌다. 데이터의 분산화와 계산의 병렬화라는 과거에는 불가능하던 일이 가능해졌다. 분산화라는 것은 데이터를 저가의 컴퓨터에 분산 저장하는 방법이다. 클라우드라고 한다. 페이스북에 사진 한장을 올리면 두장이 더 복사되어 클라우드에 저장된다. 병렬화는 컴퓨터이 뇌에 해당하는 CPU를 100개, 1000개 이상 동시에 일을 시킨다는 것이다. 즉 일을 나눠서 하는 것이다. 하나의 CPU가 1에서 100까지를 더하면 다른 CPU는 101에서 200까지 더한다. 이런 식으로 일을 100대가 나누어서 하면 계산하는 시간을 100분의 1로 단축할 수 있다. 이렇게 병렬화하면 빅데이터 분석에 드는 시간을 획기적으로 줄일 수 있다.
이제 우리는 새로운 관점을 가져야 한다. 양, 속도 다양성의 관점이 아닌 비즈니스적 관점에서 빅데이터를 볼 필요가 있다. 기업에서는 빅데이터로 어떻게 새로운 사업을 만들고 고객과 소통하고 매출을 늘리고 비용을 줄이고 직원을 적재적소에 배치하고 리스크를 최소화할지 깊이 고민해야 한다. 그리고 공공기관은 어떻게 국민들의 마음을 읽고 비용대비 효과가 높은 고효율 정책을 시행할 수 있을지 생각해야 한다.
..고객이 무엇을 생각하는지 즉 해당제품에 대해 어떻게 생각하는지 왜 이 제품을 구매하는지 또는 구매하지 않는지를 아는 것이 인사이트다. .. 데이터로부터 특정 인사이트를 도출하는 과정을 분석이라고 하고 이때 분석을 실행하는 주체가 데이터 과학자다. '인공지능, 머신러닝, 데이터 마이닝, 통계, 시각화, 최적화' 등이 있다.
소비자의 마음을 보고 기계장비 속을 본다면 이를 통해 어떤 가치를 만들어낼 수 있을까? 소비자가 원하는 가격대의 제품을 추천할 수도 있고 기계 장비의 노후된 부품을 미리 알아채고 고장나기 전에 교체할 수도 있다. 새로운 사업 기회를 만들거나 리스크를 최소화할 수 있다. 빅데이터에 의한 인사이트로 비즈니스 가치를 만들어내는 것이다.
고객의 만족도를 높이는 법
데이터가 최종적으로 창출하는 가치를 좀더 자세히 들여다보자. 기업의 경우에는 매출증대, 비용절감, 수익증대같은 금전적 가치와 소비자 만족, 리스크 감소같은 비 금전적 가치가 있다.
데이터가 없던 시절에는 어떻게 의사결정을 했는가?
사실 지금도 대부분의 경우에는 데이터를 보지 않은 상태에서 의사결정을 하지는 않는가?
특별한 감 inspiration에 의존하여 의사결정을 계속할 것인가?
데이터 기반의 인사이트
1) 객관적이다
2) 대상의 개인화가 가능하다
3) 24시간 연속적 모니터링이 가능하다
결국 데이터기반의 인사이트는 기존 방법기반의 인사이트에 비해 확률이 높다.
빅데이터를 요리하는 단계 - 빅데이터 분석
'데이터마이닝, advanced analytics, predictive analytics'라는 용어가 데이터 분석이다.
analytics는 인공지능, 머신러닝, 패턴인식이라고 부른다.
애널리틱스의 구체적 방법론은 '통계학 기반, 데이터베이스 기반, 머신러닝 기반, 패턴인식 기반' 등이 있다.
빅데이터 분석 4단계
- 묘사분석, 진단분석, 예측분석, 처방분석
1) 도대체 무슨 일이 일어났는가? 또는 일어나고 있는가?
2) 왜 그런 일이 일어났는가?
3) 앞으로 어떤 일이 일어날 것인가?
4) 그렇다면 우리는 어떻게 해야하는가?
과거의 상황을 이해하고, 원인을 분석이해하고, 미래를 예측하고 우리의 나아갈 방향(액션플랜)을 파악하는 순으로 나아가는 것이다.
빅데이터 묘사분석
지금 무슨일이 일어나고 있는지를 묘사할 것
예를들어 최근 12개월간 제품별, 지역별, 월별 매출액은 어떻게 되는지?
지역별로 심각한 고객불만과 AS요청으로는 무엇이 있는지 파악한다. 제품의 불량발생을 주별과 월별로 알게 되고, 검사단계마다 차이도 볼 수 있다. 최근 1년간 발생한 고객의 클레임 내용 및 제품별, 지역별 분포도 볼 수 있다. 각 영업사원별 커미션을 얼마를 받는지, 어떤 제품을 판매했을때 특히 커미션이 많은지 등을 이해할 수 있다. 최근에 출시한 모델에 대한 소비자의 반응은 어떤지도 분석한다.
이때 소비자 반응은 단순히 좋다, 나쁘다가 아니라 '무엇을 좋아하고 무엇을 싫어하는지' 분석해야 한다. 예를들어 가격은 좋은데 디자인이 이상하다던지, 배터리가 오래가지 않는다던지 등의 구체적인 문제를 말한다. 사실 이런 작업은 기존의 시장조사를 통해서도 할 수 있다. 하지만 요즘 전자제품은수명이 짧아져서 시장조사에서 소요되는 시간을 기다릴 수가 없을뿐 아니라 비용도 무시할 수 없다. 현재 휴대폰의 주기는 1년도 안되는데 시장조사는 조사기간과 분석기간을 합치면 9개월 이상 소요되는 경우가 많다. 게임이 끝나고 실패원인이 나온다하더라도 소용이 없다.
소셜미디어에 있는 소비자 의견에 대해 빅데이터 분석을 통해 제품 출시 1주일이나 한달만에 이와같은 피드백을 받을 수 있다면 기업은 소비자의 불만을 해소하고 전달되지 못한 판매 포인트에 대해서는 광고수정을 통해 빠르게 대처할 수 있다. 이것이 바로 빅데이터를 통한 묘사분석이다.
그리고 여기에 주로 데이터를 시각화하는 도구를 사용한다. 시각화는 직관적으로 이해할 수 있는 도구다. 사람은 시각적 정보를 가장 잘 이해한다. 여기에 사용될 수 있는 도구로는 '스팟파이어, 태블로, 클릭뷰'등이 있다.
빅데이터 진단분석
1단계 빅데이터 묘사분석에서 찾아낸 인사이트에 대해 그 원인을 이해함으로써 한단계 더 들어간다. 예를들어 2분기 매출이 1분기 매출보다 작은이유가 무엇인가? 전체적으로 다 작은 것인지 아니면 특정 제품군에서 작은 것인지, 특정지역에서 안팔렸다면 그 이유는 무엇인지를 밝히는 것이다.
병원의 경우 퇴원환자가 1주일 안에 재입원하는 비율이 최근 3개월간 증가했다면 왜 증가했는가?
반대로 최근 외래환자가 늘었다면 왜 늘었는가? 어떤 환자가 늘었는가? 어디서 환자가 많이 래원했는가?
빅데이터 예측분석
모든 사람이 다 예측에 관심이 있다. 예를들어 은행에 대출자가 콜센터로 전화해서 해지 수수료를 물어본다고 가정해보자. 대출자는 중도해지를 고려하고 있다는 뜻이다. 은행의 입장에서 보면 귀한 예측분석 자료다.
중도해지를 원한다면 왜 중도해지를 하려는 것일까? 갑자기 큰 돈이 생겨서? 다른 회사에거 더 싼 금리대출을 제공해서? 그런 것을 정확히 예측해야 액션을 취할 수 있다.
빅데이터 처방분석
마지막 단계는 처방(prescription)이다. 미래 상황을 예측한 후에 원하는 결과를 얻기 위해서는 무엇을 해야 하는지를 찾는 단계다. 광고 예산이 100억이라고 가정하자. 전통적인 광고인 TV, 라디오, 신문, 잡지, 광고판 등이 있고 온란인 채널인 모바일, 각종 소셜커머스 사이트 등이 있다. 온오프라인을 합치면 총 20개의 광고채널이 있다. 각 채널에 얼마씩 할당할 것인가? 100억을 20으로 나누어서 5억씩 동일하게 배분하는 어리섞은 광고를 할 것인가?
3단계 분석의 예측결과를 이용해서 4단계 분석을 해야하는 이유다. 이 단계에서 머신러닝을 포함하여 수리계획과 최적화 같은 고도의 수리 및 계산모델링이 필요하다.
빅데이터는 인공지능의 뇌다.
빅데이터 분석하는 애널리틱스의 핵심방법론이 바로 '인공지능'이다. 인공지능을 구현하려면 반드시 필요한 것이 '빅 데이터'다. 그래서 빅데이터와 인공지능은 동전의 양면과 같다.
인공지능 구현방식 2가지
1) 지식기반 인공지능
2) 기호기반 인공지능
지식기반 인공지능 - 연역추론과 귀납추론
1) 연역추론
예를들어 원숭이는 바나나를 좋아한다는 지식을 가지고 있다. 루씨라는 원숭이가 있다. 이제 원숭이는 바나나를 좋아해와 루씨는 원숭이다라는 두개의 명제로 변환한다. 루씨는 원숭이다라는 명제는 데이터에 해당한다. 이 두 명제를 주면 AI는 연역적 추론으로 조합해서 '루씨는 바나나를 좋아해'라는 새로운 명제를 생성한다.
2) 귀납추론
대부분의 사람들은 귀납추론을 한다. 예를들어 새로 이사간 집에서 차를 가지고 출근을 하는데 대략 40분이 걸렸다. 그런데 유독 월요일에만 1시간이 걸렸다. 우리는 월요일에 출근시간이 20분가량 더 소요된다라는 귀납추론을 하게 된다. 나의 운전경험이 귀납추론의 데이터가 된 것이다. 인공지능의 두번째 구현방법이 바로 귀납추론이다. 이것을 '머신러닝, 기계학습'이라고 한다. 머신러닝은 지식기반과 달리 컴퓨터에게 명제를 주는 대신 사진과 같은 데이터를 여러번 반복해서 보여줌으로써 컵퓨터가 자연스럽게 개와 고양이를 구분하게 만드는 것이다.
이 방법이 작동하려면 두가지가 필요하다. 충분히 많은 데이터와 반복적으로 보여주고 수정하는 아주 빠른 컴퓨터다. 예를들어 일본사람을 한번도 본적이 없는 사람이 처음 일본공항에 내려서 스모선수단을 보았다면 '일본인은 덩치가 한국인의 두배쯤된다'라는 귀납적 추론을 할 것이다. 이런 일을 방지하려면 수많은 일본인을 만나야 한다.
우리는 일상에서 빈약한 데이터를 가지고 용감하게 귀납적 추론을 한다. 서울대 식당에 한번와서 식사 한 후 '맛있다 혹은 맛없다'는 귀납적 추론을 하고 외국의 어느 도시를 방문한 딱 2-3일간의 비가오는 날씨, 추운 날씨를 경험하고 나서 그 도시는 춥고 을씨년 스럽다고 귀납적 추론을 해버린다.
아무튼 과거에는 연역적 추론의 지식기반 방식이 주를 이루었으나 오늘 날은 귀납적 추론의 머신러닝이 그 자리를 대체했다.
빅데이터 분석은 꼭 데이터 사이언티스트가 해야하는가?
현업 분석가가 할 수 있다. 이들의 장점은 현업을 잘 알기 때문에 무엇을 분석해야 하는지 왜 문석해야하는지 전문 분석가보다 더 잘 안다. 따라서 이들의 분석은 중요한 비즈니스 가치로 나타날 가능성이 매우 높다. 최근에는 코딩없이 클릭과 드래그만으로 분석할 수 있는 소프트웨어들이 등장하고 있다. 한달정도만 교육을 받으면 문과출신들도 빅데이터 분석을 할 수 있게 되었다.
더 나은 삶을 위한 빅데이터 사용법
빅데이터에 의한 기획
빅데이터 분석가가 데이터를 인사이트로 바꾸고 의사결정권자가가 인사이트 기반의 액션을 실행하면 비즈니스 가치를 얻을 수 있다. 가장 중요한 것은 '최종적인 가치'다. 인사이트를 만들기 위해 어떤 데이터가 있어야 하는지를 거꾸로 생각하는 것이 기획이다. 무엇인가를 실행하기 전에는 반드시 기획을 해야 한다.
사용자 중심의 기획
애초의 발상이 사용자의 니즈에서 시작한다. .. 보통 소비자의 의견을 듣고자 하면 '시장조사 market research'를 한다. 이 리서치는 소비자들을 대상으로 설문조사를 하는 것이다. .. 문제는 리서치의 비용이 높고 기간이 오래 걸리고 질문을 잘못하면 정확하지 않은 의견이 나온다. 소셜미디어를 통해 빅데이터 분석을 하면 이런 문제를 상당히 극복할 수 있다. .. 소셜미디어상의 소비자 목소리 'VOC, voice of customer'는 넘쳐난다.
소비자의 관심은 제품이 아닌 '서비스'
제품의 서비화는 커다란 변화다. 소비자의 관심은 사실 제품이 아니고 서비스다. .. 4차 산업혁명이 본격화되면 자동차나 에너컨같은 기계를 구매하는 대신 '이동 서비스나 온도조절 서비스'에 모바일로 가입하는 시대가 올것이다.
창문이 열린것도 데이터가 확인한다
시스템 에어컨의 작동은 모두 데이터로 기록된다. ... 시스템 에어컨이 설치된 경우 이 데이터를 분석하게 되면 각 방의 에너지 소비전력 상황을 손바닥 들여다보듯 정확하게 파악할 수 있다. .. 일본의 다이킨은 최근 실외기와 실내기 조합의 기계가 아닌 온도조절 서비스를 판매하기 시작했다. 우리가 이 건물을 전기요금 포함 월 얼마의 사용료에 1년 내내 22-25도 사이로 유지해주겠다라는 계약을 체결했다. 건물주 입장에서는 기계제품의 유지 보수에 신경쓸 필요가 없다. 에어컨 설치에 관련된 모든 결정은 다이킨에서 알아서 하는 것이다.
빅데이터 사전에 예측불가는 없다
회귀분석을 통한 와인의 품질예측
.. 아센펠터 프린스턴대학 교수는 와인의 품질예측을 혀가 아닌 데이터로 시도했다. 그는 날씨요인, 온도, 일조량, 강수량 등을 프랑스 기상청으로부터 데이터 형태로 확보했다. .. 수많은 날씨 요소데이터와 함께 확보한 전체데이터로써 과거 30년 동안 보르도 와인의 가격을 구하고 이에 대한 평균가격을 계산했다. 이후 과거 30년동안의 매년 날씨데이터와 가격데이터를 일대일로 놓고 '회귀분석'을 적용했다.
품질 = 12.145*0.00117 *전년도 겨울 강수량 + 0.06140*당해년도 평균기온 - 0.00386*수확기 강수량
이 공식이 주는 인사이트는 이렇다. 전년도 겨울에 눈이 많이 올수록, 여름에 더울수록, 수확할때 비가 적을수록 와인의 품질, 가격이 높다는 것이다. 개인의 주관적인 의견이 아닌 숫자에 의해 와인의 품질 역시 구체적이며 객관적인 수치로 예측가능하다. 전문가는 포도수확후 6개월 정도 지나 어느 정도 와인이 숙성되어야만 맛을 볼 수 있지만 빅데이터는 수확하는 그해 가을에 모든 값이 나오므로 6개월 먼저 품질을 예측할 수 있다.
반도체, 선박제작, 장비의 이상작동 빅데이터로 최적의 관리가 가능하다. .. 실시간으로 그려지는 그래프를 모니터링하다가 그 수치가 어느 범위 이상으로 올라가면 관리자에게 알려 개입할 수있게 하는 이상 스코어(anomaly score) 즉 정상인지 비정상인지를 판단하는 근거가 되는 숫자가 여기서의 인사이트라고 하겠다.
고객의 취향과 욕망을 알아내는 법
B2C(business to customer)사업인 경우 불특정 다수의 소비자들을 대상으로 하기 때문에 자신들의 진정한 고객이 누구인지를 파악하는 일이 쉽지 않다. .. 시장 세분화(market segmentation) ' 전체를 조각으로 나누어서 각 조각에 대해 깊은 관찰을 하고 이해하는 방식'
1) 인구통계학적 세분화(demographic segmentation)
나이
성별
교육정도
수입과 직업
윤리와 종교
가족구성
2) 행동학적 세분화(behavioral segmentation)
구매 및 사용습관
구매동기(occasion purchasing)
이익추구(benefits sought)
고객충성도(customer loyalty)
3) psychographic segmentation
라이프스타일
사회적 지위(social status)
고객의 관심활동(activities)
고객의 의견(opinion)
고객의 관심사(interests)
위치
Population type and density (urban, suburban, exurban or rural)
timezone
climate and season
cultural preferences
마켓은 고객전체를 의미하고 세그먼트는 고객들의 한 조각을 의미한다. 그래서 마켓 세그멘테이션은 고객들을 유사한 그룹으로 나누어 각 그룹을 깊이 이해하고자 하는 것이다.
어떤 기준으로 고객들의 유사성을 정의할 것인가?
1) 고객들의 나이, 성별, 기타 특징
2) 사용 총액, 상품별 비율
3) .....
총 10가지의 지표를 정한다.
모두를 위한 전략은 없다.
.. 세그먼트로 쪼개고 세그멘트별 성격과 인사이트를 이해하고 그에 맞는 액션을 취해야 한다.
아마존이 추구하고 있는 예측배송(anticipatory shipping)
정답은 말이 아닌 소비자의 글과 행동에 있다.
.. 마케팅 전문가들은 더이상 소비자들에게 묻지 말아야 한다. 리서치 업체는 소비자들에게 무엇이 불만인지, 무엇을 원하는지, 신제품을 구매할 것인지, 신제품의 가격이 얼마면 살것인지를 끝없이 묻는다. 소비자가 하는 대답은 실제와 다른 경우가 허다하다. .. 이제 소비자는 물어볼 대상이 아니라 관찰의 대상이다. 묻지말고 빅데이터로 관찰해야 한다. 그들의 글과 행동을 관찰해야 한다. 그것이 훨씬 더 정확한 예측을 가져온다. 마케팅에서의 소비자 연구, 그 답은 소비자의 입이 아닌 행동에 있다.
능력있는 직원의 조기퇴사를 예측할 수 있을까?
인과관계가 아닌 상관관계만 있다. .. 이런저런 특징을 가진 사람들의 퇴사율이 훨씬 높다는 것으로 그 이상도 그 이하도 아니다. .. 예를들어 책을 많이 읽어서 어휘력이 좋은 아이가 있다. 옆집에 사는 다른 아이 엄마가 '책장에 책이 많다'는 것을 알고 '아! 집에 책이 많으니 아이가 책을 좋아하게 되었구나'라고 데이터 분석을 했다. 하지만 이것은 인과관계가 아니라 상관관계일뿐이다.
최고 경영자의 철학이 데이터 가치를 창출한다
.. 아무리 훌륭한 인사이트를 데이터로부터 도출해도 그것을 기반으로 액션을 실행하지 않으면 가치는 나오지 않는다. 그래서 최고 경영자가 중요하다.
3부. 빅데이터가 '가치'로 탄생하기까지
단계 | 분석 | 소프트웨어 및 기법 |
1 | 묘사분석 | 시각화 : 스팟파이어(spotfire), 태블로(tableau) 연관분석 : 어 프라이오리(A Priori) 클러스터링 : k-평균 군집화, 계층적 군집화, SOM 신경망 |
2 | 진단분석 | 상동 |
3 | 예측분석 | 예측 : 의사결정나무(Decision tree), 회귀분석(regression), 지지백테 회귀분석, 다층 퍼셉트론 신경망 분류 : 의사결정나무, 로지스틱 회귀분석, 지지벡터 머신, 다층퍼셉트론 신경망 이상탐지 : 가우시안 혼합모형, 오토인코더 신경망 |
4 | 처방분석 | 최적화 : 선형 및 전수 최적화, 진화 알고리즘 |
1) 시각화사례
에어컨 실내기가 24시간 동안 어떻게 작동했는지를 점으로 표시하여 그 시각화된 점의 패턴이 우리에게 직관적인 인사이트를 준다
2) 연관분석 사례
소셜미디어에 올라와 있는 오븐에 대한 소비자들의 평가를 놓아놓은 것, 단어와 단어의 연관관계를 살펴보았다.
3) 클러스터링 사례
신용카드사의 우수고객 30만명을 성향별로 나눠 신용판매를 많이 쓰는 사람, 현금서비스만 카드로 쓰는 사람 등을 그룹으로 만들어 판매를 촉진
4) 예측 및 분류 사례
인공지능 알파고의 사례다. 알파고는 지금 상황에서 바둑알을 어디에 놓아야 승리할지, 현재 이길 확률이 얼마가 될지를 끊임없이 예측하며 바둑을 둔다.
5) 이상탐지 사례
기계장비의 이상상황을 발견하는 것이다. 기계가 아직 작동하고는 있으나 평소와는 다른 양상을 보이는 것을 탐지하는 것이다. 인공지능 컴퓨터로 이상징후를 탐지하면 쉬지도 먹지도 않으면서 100% 이상탐지가 가능해진다.
시각화
우선 그림으로 그려야 한다. 시각화는 비즈니스 인델리전스라고 하는데 데이터를 그림으로 보여주는 것이다. 가장 중요한 것은 무엇을 볼것인지를 결정하는 것이다. 가치를 만들어주는 인사이트를 결정하는 것이다. 이는 의사결정자가 기획단계에서 결정해야 한다. .. 간단하게 엑셀로도 시각화가 가능하지만 최근에는 엑셀보다 수십배 생산성이 높은 시각화 도구가 있다. '스팟파이어와 태블로'가 대표적이다.
연관분석
두번째 분석태스크는 '연관분석' 즉 연관성이 있는 것들을 찾는 것이다. 맥주와 기저귀의 이야기를 들어본적이 있는가?
동시에 발생하는 사건이나 조건 또는 동시에 구매되는 물품을 파악하는 분석방법에는 'A priori"가 있다.
클러스터링(clustering)
세번째 태스크는 클러스터링 즉 군집화다. 사람 또는 대상을 비슷한 것들끼리 묶는 방법이다. 고객들을 유사한 사람들끼리 군집화해놓으면 이들을 대상으로 각 클러스터에 맞는 맞춤형 제품과 서비스를 마케팅할 수 있다. 예를들어 '주로 30-40대 여성으로 학부형일 가능성이 많으며 주 거주지는 강남이고 생활수준이 높으며 비즈니스와 맛집 탐방의 라이프 스타일을 갖는 사람'식으로 특정 클러스터를 묘사할 수 있다.
30대 중반 유아를 가진 엄마
60대 손자와 며느리가 있는 할머니, 할아버지
50대 고등학생 자녀를 가진 엄마, 아빠
40대 의자에 앉아 일하는 직장인
타이타닉 3등 객실에 탑승한 성인남성의 운명은?
의사결정나무 모형은 예측 및 분류의 근거를 변인들이 조합으로 나타낸다. 이는 인사이트를 사람이 이해할 수 있게 제시하기 때문에 의사결정자들이 선호하는 기법이다.
이상탐지
포사이트에서 이상탐지는 '비정상'을 탐지하는 것이다. 보험, 세금, 신용카드 사용에서의 비정상을 탐지하여 사기를 예방하고 공정에서의 이상상화 및 기계장비의 이상도 탐지한다.
가우시안 혼합모형이 대표적인 방법이다. 최근에는 딥러닝의 일종인 오토인코더 신경망을 포함한 새로운 방법론이 많이 연구되고 있다.
인공지능 - 주변의 상황을 인지하고 목표를 달성하는 행동을 하는 컴퓨터
1) 기호주의(symbolism)
모든 지식을 기호로 표현하겠다는 것
예를들어 원숭이는 바나나를 좋아한다. 루씨는 원숭이다. 루씨는 바나나를 좋아한다. 이렇게 연역적 추론을 하겠다는 뜻
세상의 모든 지식을 명제로 만든 다음에 면제들의 연역적 추론을 통해 무엇이든 대답할 수 있다는 것이 기호주의 학파의 관점
미국에서는 30년동안 엄청난 돈을 쏟아부었지만 결과는 실망적이었다.
암묵적 지식(tacit knowledge)과 명시적 지식(explicit knowldege)
우리가 할줄은 알지만 어떤 지식을 이용해서 하는지 체계적으로 설명할 수 없는 것을 암묵적 지식이라고 한다. 반대개념인 명시적 지식(explicit knowldege)은 공학, 법률, 의학 지식등으로 결론에 이르는 과정이 명백하고 각 단계에서 사용한 지식들이 명백한 것을 말한다. 암묵지는 명제로 변환하기가 어렵다. .. 우리는 매일 걷지만 어떻게 해서 걷는지 정확히 명제로 만드는 것은 어렵다. .. 많은 사람들은 암묵지는 지식이 아니라고 생각하기도 한다. 왜냐하면 이것을 배우려고 노력해본 적이 없기 때문이다. 인간의 지식은 대개가 암묵지이고 명시지는 극히 드물다. .. 따라서 명제로 바꿀수 없기에 기호주의 방식으로 인공지능 컴퓨터를 만드는 것은 매우 어려운 일이다.
2) 귀납적 추론에 의한 연결주의(connectionism)
인간의 모든 학습은 뉴런의 네트워크 구조의 변화를 수반한다. 테니스, 골프, 새로운 노래가사를 외우는 것은 모두 뉴런간의 연결구조인 시냅스의 연결이 강화되거나 새로운 연결이 나타난 결과다. ... 인간 뇌를 본떠서 인공지능을 학습시기코 뇌세포들 간의 연결을 변화시키는 것이 바로 연결주의다. 반복적 자극에 따른 뇌의 시냅스 변화를 통해 인간의 뇌가 학습하듯이 컴퓨터에게도 데이터로 계속 자극을 주어 컴퓨터내의 시냅스를 변화시켜 똑똑하게 만들자는 것이다. 이를 '기계학습, 머신러닝'이라고 한다.
연결주의 방식은 기호주의 방식과는 다르게 명제에서 출발하지 않고 데이터에서 출발한다. 데이터 안에 담긴 지식을 습득하는 것이다. 데이터를 반복적으로 보는 과정을 통해서 명제를 만들어낸다. 기호주의의 명제로부터 명제를 도출하는 추론을 연역이라고 한다면 연결주의의 데이터로부터 명제를 도출하는 추론은 귀납이라고 한다. 귀납적 추론은 연역적 추론보다 훨씬 더 우리의 일상에서 자주 사용된다.
문제는 귀납적 추론은 연역적 추론에 비해 허점이 많다는 것이다. 결정적으로 항상 옳은 것이 아니다. 특히 데이터의 갯수가 적으면 적을수록 오류가 커진다. .. 얼마되지 않은 데이터로 무언가를 단정짓듯 말하는 것은 매우 위험하다. 이제 데이터의 양이 어마어마해진 빅데이터 시대에 귀납적 추론은 그 어느때보다 확실히 경쟁력이 있다.
연결주의 인공지능의 암흑기
1950년대 뉴런을 단순한 컴퓨터 소자로 수리적으로 표현한 매컬러와 피츠 그리고 이들의 네트워크로 구성된 단순한 컴퓨터 퍼셉트론을 제안하고 이를 데이터로 학습시키는 알고리즘을 개발한 '로젠블랫'은 연결주의의 선구자들이다. 그런데 이 컴퓨터의 이론적 단순함은 많은 비판을 받았고 이로써 이들은 1970-80년대 연결주의의 첫 암흑기를 맞게 된다.
1980년대 후반 인지심리학자와 컴퓨터과학자들인 '루멜하트, 힌턴, 윌리엄스'는 퍼셉트론을 다층구조로 확대한 다층 프셉트론(multilayer perceptron)의 학습방법인 역전파(backpropagation) 알고리즘을 개발한다. 이 연구는 한동안 잠자고 있던 연결주의를 단숨에 인공지능 최첨단의 가장 뜨거운 주제로 만들었다. 그러다가 두번째 암흑기를 맞는다. 이유는 데이터가 부족했고 컴퓨터의 계산속도가 느렸다. 두가지 문제는 시간이 가면서 해결되었다.
핸드폰이 보급되면서 데이터는 넘쳐났고 컴퓨터의 계산속도는 분산화, 병렬화를 통해 극적으로 빨라졌다. .. 최근에 빅데이터가 등장하면서 1,2 단계를 거치지 않고 곧바로 3단계고 가는 방식을 취하게 된다. 즉 입력을 넣고 직접 분류하는 것이다. 거대한 다층 퍼셉트론을 딥러닝으로 학습한다.
인공지능의 뛰어난 능력 '이미지 분석'
이미지 데이터베이스인 이미지넷은 수천가지의 카테고리에 속하는 수백만개의 이미지로 구성되어 있다. 어떤 이미지가 주어지면 수천가지 가운데 어느 카테고리에 속하는 것인지 정확히 분류하는 것이 문제인데 이를 위해 수백만개의 이미지를 딥러닝으로 학습한다.
기본세팅은 20만개 이미지로 학습하고 검증과 테스트는 15만개로 한다. 카테고리는 1천개다. 이때 15만개 중 몇개나 틀리는지를 검증한다. 2천년대 초에는 25%의 오류가 발생했다. 2015년 우승작품인 마이크로소프트사의 '레즈넷 ResNet'은 오류율을 3.5%로 낮췄다. 15만개의 이미지중 무려 14만 4750개를 맞추었던것이다. 곰팡이며 기생충같은 이미지들을 대부분 다 맞춘 것이다.
.. 이미지 분석이외에도 너무나 댜양한 분야에 활용된다. 인공위성 사진으로부터 세계 곡창지대 작물의 색변화, 대형 유통업체 주차장에 주차된 차량의 수, 자동차 제조업체 야적장에 있는 차량의 수 등을 읽어내 다양한 경제적 인사이트를 얻을 수 있다.
문서의 텍스트화 '단어주머니'
.. 텍스트로부터 인사이트를 도출한다는 것은 그 텍스트가 무엇에 관한 것이며 저자가 어떠한 주장이나 의견을 펼치는지를 이해하는 것이다. 가장 단순한 방법부터 생각해보자. 단순히 텍스트내에 어떠한 단어가 얼마나 많이 등장하는가만 세어보고 이를 시각화해도 해당문서의 의미를 직관적으로 이해할 수 있다. .. 문서를 어떻게 숫자로 바꿀 것인가? 바로 '단어 주머니 bag of words'를 사용하는 것이다. 단어 주머니란 해당 문서에 등장하는 단어들을 말한다. 한단어가 여려번 등장하면 그 안에 등장 횟수만큼 복사된다.
.. 문서간의 유사도를 계산한다. 이를 통해 유사한 문서들끼리의 클러스터링이 가능하다. 축구기사에 해당하는 단어와 야구기사에 등장하는 단어가 다르기에 이러한 단어주머니 기반의 코딩을 사용하면 스포츠 기사를 축구, 야구, 농구, 배구식으로 쉽게 군집화하거나 분류할 수 있다.
맥락에 따라 달라지는 단어의 정서
4부. 빅데이터, 거부할 수 없는 미래
.. 빅데이터 최종목표는 인사이트가 아니다. 최종목표는 '가치 만들기'다. 따라서 그냥 눈앞에 있는 구하기 쉬운 데이터를 가지고 무작정 분석해서 인사이트를 도출하고 이를 의사결정자에게 던져주는 접근법은 100% 실패한다. 미리 어떠한 가치를 위해 어떠한 인사이트가 필요한지를 가르쳐주지 않고 그저 데이터만 주면서 뭐든지 분석해보라고 하는 것은 셰프에게 무얼 먹고싶은지 말하지 않고 그냥 내가 맛있게 먹을 수 있는 것을 만들어 오라고 하는 것과 같다.
.. 그래서 반드시 가치를 먼저 생각하고 그 가치를 성취하기 위해 어떤 인사이트를 뽑아야 하는지 그 인사이트는 어떤 재료를 필요로하는지 역으로 생각해야 한다. 이 과정을 기획이라고 하고 기획이 빅데이터 분석 이전에 선행되어야 한다.
가치창출의 4단계
1단계는 가치의 정의다. 예를들어 최근 고객이 많이 이탈하는 문제에 처해앴다면 이탈을 방지하는 것이 가치가 될 수 있다. 이탈스코어를 찾기 위해 우리가 필요한 데이터는 무엇인가? 한가지 후보로는 콜센터로 들어온 고객의 전화통화 녹취록이 될 수 있다.
데이터-인사이트-가치라는 프레임워크에서 데이터가 인사이트로 바뀌는 단계가 분석이다. 인사이트가 가치로 바뀌는 단계는 실행이다. 이 두가지 과정보다 먼저해야 하는 단계가 있으니 바로 '기획'이다. 가치에서 출발하여 인사이트는 무엇인지, 필요한 데이터는 무엇인지 알아내는 단계다. 그리고 인사이트를 가치로 만드는 실행을 하기 직전에 도출된 인사이트에 대한 기본적인 확인단계가 필요하다.
기획(plan)
분석(do)
확인(check)
실행(action)
좋은 기획은 수많은 브레인스토밍으로
기획을 잘하려면 어떤 점에 집중해야 하는가? 성공적인 기획의 3요소는 '임팩트, 데이터, 분석'이다. 무엇보다 먼저 비즈니스 영향력(임팩트)가 큰 가치를 찾아야 한다. 가치를 만드는 비즈니스 실행과 그 실행의 근거가 되는 인사이트를 생각해야 한다. 기획에서 중요한 두번째 요소는 데이터다. 고객의 이탈 가능성을 계산해 낼 수 있는 데이터는 무엇인가? 그 데이터는 어떻게 확보할 수 있는가? 예를들어 3개월치 통화내역 파일이 있는가? 그리고 음성파일은 텍스트 파일로 자동변환가능한가? 만약 최근 1개월치 통화내역이 없다면 이제부터라도 자료(데이터)를 확보해야 한다.
가치
1) 어떠한 비즈니스 가치를 만들고자 하는가?
2) 어떤 문제를 해결하고자 하는가?
3) 발생하는 손실 또는 이탈을 금액으로 추정할 수 있는가?
비즈니스 액션
1) 기대하는 가치를 만들려면 무엇을 해야하는가?
데이터
1) 필요한 데이터는 무엇인가?
2) 데이터는 어떻게 확보해야 하는가?
인사이트
1) 데이터 분석의 결과물은 무엇이고 어떤 형태인가?
예상어려움 극복
1) 확보한 데이터가 기대하는 가치창출에 부합하는가?
분야별 기획사례
분야 | 가치 | 비즈니스 액션 | 인사이트 | 데이터 | 예상되는 어려운점 |
영업마케팅 | 손익분기점 관객수 달성 | 적절한 영업 마케팅 수행 | 개봉 6주전에 개봉후 첫 토요일 관객수 예측 | 과거 개봉된 영화제작비, 국가, 장르, 주연배우, 감독, 관객수, 장르 | 데이터 확보 |
시스템 운용 | 에너지 저장장치운용 효율제고 | 에너지 저장장치 운용최적화 시 데이터로 사용 | 빌딩(층별) 에너지 소비량 예측 | 과거 3년간 에너지 소비량 | 데이터확보 |
품질 | 시장품질제고 | 검사항목 및 기준조정 | 필드클레임대상 제품의 제조공정 검사 값관계 | 공정검사 데이터 + 필드 클레임 데이터 | 부서간 데이터 |
제조혁신 | 장비 다운타임 최소화를 통한 오퍼레이션 효율제고 | 담당 엔지니어의 확인 및 필요한 조치 | 장비이상 및 고장가능성 스코어 | 장비센서 데이터 + 장비 고장데이터 | 고장라벨 부족 |
빅데이터 분석
데이터 재료를 가지고 원하는 인사이트를 얻으려면 에널리틱스의 어떤 기법을 사용해야 하는가?
현업 의사결정자가 공부해야 할 것
1) 기본 교육 및 알고리즘
2) 실제 데이터를 가지고 컴퓨터를 활용해서 애널리틱스 방법론으로 적용하므로써 인사이트를 도출하는 실습 수행
3) 비즈니스 문제 상황 및 원하는 가치가 주어졌을때 어떻게 분석문제로 변환시키는지 도상훈련
4) 각자 업무분야에서 가장 중요한 가치를 줄 수 있는 가치-인사이트-데이터로 이어지는 기획을 수행
5) 자신이 수립한 기획에 따라 실제 데이터를 확보하여 애널리틱스 방법으로 인사이트까지 도출하는 것
래피드마이너(rapidminer)
코딩하지 않고 클릭과 드래그만으로도 데이터를 분석하는 소프트웨어 패키지
한국 래피드마이너 홈페이지
www.rapidminer.co.kr/rapidminer-studio
데이터 사이언티스트는 어디에서 구하나?
GDPR(general data protection regulation)
2018년 유럽 개인정보 보호규정
데이터는 신대륙과 같다. 경쟁이 없는 신대륙으로 가서 새로 원하는 땅을 확보하기만 하면 된다.
데이터는 21세기 원유다. 원유를 모아서 가치있게 가공하기만 하면 그 자체로 돈이다.