|
안녕하세요. 새날입니다.
지난 주는 책 소개와 ‘개념편-디지털 전환 사이클’ 일부를 대해 같이 읽어 보았습니다.
이번 주는 ‘개념편-디지털 전환 사이클’ 나머지를 살펴보겠습니다.
Theme 01. 개념편 : 디지털 전환 사이클
2. 디지털 전환의 핵심 기술
3. 기업의 디지털 전환
성공과 실패 사이에 놓인 네 개의 계단
디지털 전환은 어떤 기업에나 똑같은가?
〈 생각 나눔 〉
지난 주에 이어 이번 주도 개념편의 디지털 전환 사이클에 대한 내용으로 디지털 전환의 핵심 기술 나머지와 기업의 디지털 전환을 논하고 있습니다. 이 중에서도 특히 인공지능과 그 적용 과정에 대해 간략히 알아보고자 합니다.
인공지능은 크게 지식 기반과 머신러닝으로 나뉩니다. 지식기반은 인간이 해야 할 일의 순서와 절차, 지식을 모두 넣어서 그 일을 컴퓨터가 수행하도록 하는 것입니다. 반면 머신 러닝은 인간이 처리 로직을 만들어 주지 않고 기계가 스스로 학습하게하는 것입니다. 그 이유는 컴퓨터에게 넣어줘야 할 지식이 너무 많고, 새로운 지식이 계속 만들어지거나 바뀌기 때문에 그 많은 것을 인간이 지속적으로 관여하기 어렵기 때문입니다. 머신 러닝 중에서도 딥러닝은 인간의 신경망을 모방하여 인공 뉴런을 네트워크로 연결하고 인공 신경망을 깊이 있게 구성하여 복잡한 학습을 가능하게 하는 접근법입니다. 요즈음은 머신 러닝하면 딥러닝으로 인식되기도 합니다.
인공지능이 뭔가를 ‘학습하는’ 방식은 아동과 비슷하다고 할 수 있습니다(이하 출처1). 어린아이에게 고양이를 분간하는 법을 가르쳐주겠다고 고양이가 어떻게 생겼는지 말로만 설명해주는 것은 그리 좋은 전략이 아닙니다. 고양이는 다리가 4개이고 꼬리가 있으며, 작은 귀 2개가 달렸습니다. 하지만 이런 설명은 곰에게도 적용될 수 있습니다. 아이가 여러 동물 중에서 고양이를 구별할 수 있게 하려면 고양이를 몇 마리 찾아서 보여줘야 합니다. 그러면 아이는 서서히 머릿속에 ‘고양이’의 청사진이 생겨서 마침내 고양이를 보면 이전에 봤던 예시와 조금 달라도 고양이로 인식하게 됩니다. 기계도 마찬가지입니다. 신발이 무엇인지 몇 줄의 코드로 설명해줄 수도 있지만 그보다는 “컴퓨터야, 여기 신발 사진이 1만 장 있으니까 신발을 분간하는 모델을 만들어봐”라고 말하는 게 훨씬 더 효과적입니다.
그렇다면 인공지능과 빅데이터가 서로 어떻게 연동되어질까요? 빅데이터만 가지고 인공지능이 잘 작동될까요? 꼭 그렇지만은 않은 것 같습니다.
아마존이 2005년에 온라인 크라우드소싱 중개소인 메커니컬터크를 설립하였습니다. 사업 초반에 메커니컬터크에서 사람이 했던 일 중에는 컴퓨터에서 수천 장의 옷과 신발 사진에 색깔 라벨을 붙이는 일이 있었습니다. 파란색 신발 사진이 나오면 ‘파란색’이라고 쓰인 라벨을, 회색 스웨터 사진이 나오면 ‘회색’이라고 쓰인 라벨을 클릭했습니다. 당시 아마존은 이렇게 메커니컬터크를 이용해 각 색상에 대한 예시를 수천 개씩 확보함으로써 자사 알고리듬이 ‘파란색’과 ‘회색’에 대한 검색을 자동으로 처리할 수 있게 학습시켰습니다. 이런 방식은 기술의 약점을 인간의 지능으로 보완하기 위해서였습니다. 애초에 메커니컬터크를 만든 취지는 프로그래밍 코드에 인간의 지능을 접목하는 것, 다시 말해 프로그래머를 지원하는 것이었습니다. 지금의 추세로 보면 이런 과정도 어느 정도의 시간이 지나면 그동안 쌓인 데이터를 통해 웬만한건 인간의 도움없이도 기계 스스로가 처리할 수 있는 날이 오지 않을까 하는 생각이 듭니다.
인공지능이 적용되는 분야가 다양해지면서 고객과의 접점에서 힘을 발휘하는 사례가 많아지고 있습니다. 아주 적절히 적용된다면, 인공지능은 시간이 지남에 따라 확장력을 발휘하고 개선됨으로써 사업자와 고객에게 커다란 효과를 안겨줄 수 있습니다. 단, 여기서 중요한 말이 ‘아주 적절히 적용된다면’입니다. 다시 말해, 잘못 적용되면 헛일이라는 얘기도 됩니다.
인공지능과 데이터 과학이 아주 적절히 적용된 사례로 넷플릭스를 꼽을 수 있습니다(이하 출처2). 넷플릭스의 머신러닝 알고리즘은 비즈니스 니즈에 의해 창출, 변형, 개선된다고 할 수 있습니다. 이에 대해 알아보고자 합니다.
넷플릭스가 인공지능과 데이터 과학을 적용하는 대표적인 영역은 다섯 가지 정도로 나누어 볼 수 있습니다.
첫 번째는 콘텐츠 제작에 관한 의사결정 영역입니다. 넷플릭스는 플랫폼상의 데이터 분석을 통해 이른바 ‘크리에이티브’ 기능이 갖는 위험을 상당 부분 줄이려 하고 있습니다. 넷플릭스가 콘텐츠에 관한 의사결정을 개선하기 위해 좇는 지표는 ‘끝까지 시청하는 비율completion rate’을 비롯해 하루 중 언제 시청하는가, 언제부터 시청해서 언제 끝내는가, 시청 도중 멈춤·빨리감기·건너뛰기·되감기는 언제 나타나는가 등 다양한 고객 행동 데이터입니다.
이를 통해 얻은 주요 의사결정 사례는 많습니다. 대표적인 예로 〈하우스 오브 카드〉를 들 수 있습니다. 이 경우는 데이터 기반 크리에이티브 의사결정의 산물이라고 할 수 있습니다. 우선 넷플릭스는 크게 세 가지 축의 데이터를 찾았습니다. ①원작인 영국판 드라마에 대한 평가, ②영국판 드라마 팬들 중 주연배우 케빈 스페이시가 나오거나 감독인 데이비드 핀처가 연출한 영화를 본 사람들에 관한 데이터, ③연출자 데이비드 핀처가 감독한 영화를 거의 끝까지 시청한 사람들의 평가입니다. 이 데이터들은 〈하우스 오브 카드〉의 중심 에피소드 전개 방식과 주연배우 케빈 스페이시가 전달하는 뉘앙스 및 메시지를 구성하는 데 지대한 영향을 미친 것으로 알려져 있습니다.
물론 크리에이티브는 제작 스튜디오가 가진 창의적 재능에 상당 부분 좌우되는 것이 사실입니다. 그러나 데이터가 증명하는 객관적인 근거를 기반으로 창의력에 과학을 더하는 접근이 넷플릭스 안에서 보다 가속화되고 있는 것도 사실입니다.
그러나 넷플릭스가 오리지널 콘텐츠 제작 초기부터 이와 같은 데이터 기반 접근을 했던 건 아닙니다. 넷플릭스는 적어도 6년간은 데이터로부터 뚜렷한 패턴이나 징후를 잡아내지 못했습니다. 플랫폼의 빠른 성장과 고객의 반응을 끌어내는 추천 등 여러 기능이 눈덩이 효과를 만들면서, 쓸 만한 데이터가 쌓인 결과라고 볼 수 있습니다.
두 번째 영역은 영화 제작 로케이션 선정, 편집, 론칭 등입니다. 영화를 실제 제작할 때는 많은 제한 요건을 고려해야 합니다. ‘배우나 스태프가 해당 날짜와 장소에 함께할 수 있는가’를 시작으로 장소 섭외 비용이나 항공편·숙박 비용 등을 고려한 예산 문제도 있습니다. 게다가 제작자가 기획한 장면을 연출하기 위한 요구사항들, 예를 들면 낮 장면인가 아니면 밤 장면인가, 배경이 되는 날씨는 적합한가 하는 점도 미리 살펴야 합니다.
넷플릭스는 이 많은 요소를 고려해 제작 목적을 달성하는 ‘최적의 방법’을 찾아내는 데 데이터 과학을 활용합니다. 또한 제작 후 편집 과정에서 인력이 투입되어야 하는 부분 역시 데이터 과학으로 콕 집어냅니다. 편집상 오류나 실수(자막과 대사가 싱크로되지 않거나, 배경음악의 전환이 매끄럽지 않은 경우 등)에 관한 데이터를 축적해 머신러닝을 활용하여 오류 발생 요소를 예측합니다. 그런 다음 오류 가능성이 큰 편집 요소에 인력을 집중적으로 투입해 보정하고 검수합니다. 전체적으로 편집에 소요되는 시간은 줄이면서 완결성은 높이는 접근법입니다.
더 나아가 자막의 번역 품질과 적정한 납기, 시청 국가에 맞는 번역 등을 위한 후속 편집 등의 제한 요소들을 최적화해 오리지널 콘텐츠의 글로벌 론칭 스케줄을 잡아냅니다.
이렇듯 넷플릭스는 콘텐츠 제작에 맞는 데이터 과학을 만들어 왔습니다. 가장 비과학적인 것처럼 보이는 영역을 과학화하는 그들의 목적지는 사업과 소비자 경험의 글로벌 확장성입니다.
세 번째는 영화 추천의 개인화입니다. ‘보통 A라는 영화를 보는 고객들은 B라는 영화를 볼 가능성이 크다’와 같은 접근입니다. 이것은 아마도 ‘넷플릭스’ 하면 사람들이 가장 쉽게 떠올리는 기능일 것입니다. 넷플릭스는 비슷한 취향을 가진 다른 고객들의 시청 리스트를 이용해 당신이 다음에 볼 법한 영화를 추천합니다. 이를 통해 당신의 플랫폼에 대한 관여도를 유지하고, 당신이 구독료를 꾸준히 지불하게 합니다.
여기서 강조하고 싶은 것은 넷플릭스가 개인화를 위해 데이터 분석의 힘을 한곳에 모으는, ‘선택과 집중에 기반한 데이터 과학 접근법’입니다. 여느 플랫폼과 달리, 넷플릭스에서 고객이 자신의 선호를 이야기하는 방식은 ‘별 평점’뿐입니다. 넷플릭스도 한때 웹사이트 버전에서 고객의 자연어 댓글, 리뷰 품평을 달게 했습니다. 그러나 지금은 이 기능을 활성화하지 않으며 중단을 고려하고 있습니다.
데이터 관점에서 이야기하자면 고객의 선호를 읽는 방법은 ‘완전 날것의 품평 댓글’을 수집·분석하는 방법이 있고, 별 평점처럼 쉽게 분석할 수 있는 ‘메타데이터metadata 식’ 접근이 있습니다.
넷플릭스는 후자에만 초점을 둡니다. 메타데이터란 곧바로 수치적 분석은 되지 않으나 비정형적인 정보를 분류해놓는 체계를 말합니다. 자연어 품평의 경우에도 분석을 하기 위해서는 우선 반정형 데이터 형태로 가공하는 수고를 들여야 합니다. 넷플릭스는 고객의 선호보다는 자신들이 팔 수 있는 것의 세부 특징들을 과학적으로 분석해 차곡차곡 세분화하는 데 중점을 둡니다. 고객들의 댓글 품평이란 원래 날것이어서, 그 의미를 생산적으로 해석하는데 적지 않은 노력이 필요합니다. 넷플릭스는 자연어 분석이 갖는 여러 가지 기술상 한계를 인식해 분석 역량을 과감히 한곳에 집중한 것입니다.
네 번째는 고객 유인입니다. 넷플릭스는 당신을 끌어당겨 후킹hooking할 최고의 이미지를 찾습니다. 당신의 클릭을 유도할 가능성이 가장 큰 영화나 쇼의 섬네일 이미지를 자동으로 찾아 제시하는 기술 또한 넷플릭스가 ‘어장을 관리하는 방법’ 중 하나입니다. 넷플릭스는 한 영화나 쇼에서 3,000~4,000여 개의 대표 이미지 프레임을 뽑습니다. 그다음 각 프레임에 대해 당신의 클릭을 유도할 가능성을 점수로 환산해 순위를 매기는 방식으로 이른바 ‘낚시’ 준비를 합니다. 이 역시 계산의 기초가 되는 것은 당신과 비슷한 누군가가 이미지를 본 히스토리입니다. 어떤 배우나 영화 장르를 좋아하는 사람은 그와 연관된 특정 배우나 이미지를 클릭할 가능성이 크다고 보는 접근입니다. 그런 다음에는 끊임없는 A/B 테스트가 이어집니다. 한 편의 영화와 한 명의 시청자를 두고 클릭 가능성이 큰 이미지들을 선별해 시험하면서 조금이라도 클릭과 시청의 가능성이 큰 이미지 세트를 제시하기 위해 지난한 과정을 반복합니다.
결과는 역시 ‘개인화’입니다. 서로 다른 두 명의 시청자가 같은 영화 〈대부〉를 추천받는다고 가정해 봅니다. 이 중 한 명이 주인공 알 파치노의 얼굴을 클로즈업한 화면을 추천받을 때, 다른 누군가는 돈 콜레오네 가문의 화려한 결혼 파티 장면을 제시받게 되는 이유가 바로 개인화입니다.
다섯 번째는 스트리밍 품질을 지키고 최적화하는 것입니다. 고객들에게 버퍼링(화면 정리, 일시 끊김) 없는 스트리밍 서비스를 제공하는 것은 넷플릭스로서는 너무나 중요한 일입니다.
넷플릭스는 과거의 시청 데이터를 기반으로 대역폭 사용량을 항시 예측하며, 캐시 서버cache server(인터넷 서비스 속도를 높이기 위해 사용자와 가까운 곳에 데이터를 임시 저장하여 빠르게 제공해주는 서버)를 적절히 활용해 업로딩과 데이터 액세스를 빠르게 하는 운용 전략을 실행합니다. 특정 국가의 고객들이 특정 시간대에 특정 콘텐츠를 많이 볼 것으로 예상된다면, 해당 파일을 본사의 서버가 아닌 해당 국가에 인접한 서버에 업로딩해 활용하게 하는 것입니다. 이런 캐시 서버 운용은 글로벌 동영상 스트리밍 사업자인 유튜브에서도 활용하는 전략입니다. 예컨대 유튜브의 서버는 미국에 있지만 〈강남 스타일〉처럼 한국 이용자들이 자주 보는 영상은 한국에 있는 구글 글로벌 캐시에 임시로 저장합니다. 그럼으로써 해외 회선을 거치지 않고 이용자들이 버퍼링 없이 영상을 즐기게 하는 것입니다.
반드시 품질을 높이는 데에만 데이터 과학이 활용되는 것은 아닙니다. 오히려 네트워크 사용 부하와 품질 간의 적절한 균형점을 찾는 데에도 사용됩니다. 2020년 3월은 코로나19로 넷플릭스로선 이른바 ‘대박’을 터트린 시기였습니다. 하지만 너무 많은 소비자가 넷플릭스에 접속하는 바람에 잘못하면 시스템 자체가 다운될 우려가 있었습니다. 넷플릭스는 네트워크 부하, 재생 품질, 시청자의 시청 경험 등에서 최적점을 찾은 끝에 재생 품질을 일정 부분 떨어뜨리기로 했습니다. 바로, 균형이 중요했기 때문이다.
지금까지 살펴본, 인공지능과 데이터 과학을 적용하는 대표적인 다섯 가지 영역에서 넷플릭스는 사업 성과는 물론 일상적 운영에서도 실로 어마어마한 효과를 내고 있습니다. 그렇지만 이런 모습을 갖추기까지는 기술의 가치를 비즈니스 니즈와 연결하려는 송곳 같은 통찰과 집요한 실행 노력이 있었음을 알아야 합니다. 또한 쓸만한 데이터가 쌓이기까지 6년 간의 인내과 기다림이 있었다는 것도 알아야겠습니다.
그럼 다음 주에는 ‘기술편-전환의 완성도’ 일부를 같이 읽어보도록 하겠습니다.
〈 참고 도서 〉
O 출처1: 『Gigged 직장이 없는 시대가 온다』, 새라 케슬러 지음, 김고명 옮김, 더퀘스트 출판, 2019.02.14 출간, 352쪽
O 출처2: 『DX 코드(디즈니와 넷플릭스 디지털 혁신의 비밀)』, 강정우 지음, 시크릿하우스 출판, 2020.09.04 출간, 260쪽
───────────────────────────────
매일매일 해가 뜨고 지는 일이 늘 반복되지만
그래도 어제보다 좀 더 나은 내일이 되었으면 하는 바람으로
더불어 함께 오늘을 충실히 잘 살아가기를 소망합니다.
또한 남과의 비교가 아닌,
어제 나와의 비교를 통해 하루하루 성장하는 나를 만나고 싶습니다.
-새날 드림/Dream