|
‘오케이 구글!’이라 외치면 작동되는 구글어시스턴트! 2016년 구글에서 선보인 음성인식 AI 기반의 인공지능 비서 서비스로 음성 명령 하나면 손 대지 않고 TV도 켜고, 전화도 걸고, 음악도 틀고, 셀카도 찍고, 통역도 해주고, 궁금증도 풀어주고, 대화도 해주는 만능 서비스다. 도대체 이런 신세계는 누가 만들었을까?
▲ 음성인식 AI 구글 어시스턴트 (출처: 구글코리아)
알고보니 화석 기술이었던 음성인식 테크놀로지
▲ 우리나라 최고의 음성인식 디바이스(?)는 엄마... (출처: 픽사베이)
사물인터넷, 증강현실, AI 같은 테크놀로지는 최근 들어서 상용화된 기술이지만 사실 음성인식 기술은 50년에도 존재했던 유서 깊은 기술이다. 그것도 아주 가까이에서. 당장 우리 곁만 봐도 "엄마~ 배고파"라고 하면 라면을 끓여주고, "여보, 내 양말?"이라고 말하면 척, 양말을 내놓고, "엄마, 아침에 일찍 깨워줘"라고 하면 알람보다 더 확실하게 잠을 깨워주고, "애미야~ 물 좀 떠와라"라고 말하면 물까지 떠다 주는 한국판 음성인식 AI '엄마, 아내, 며느리'가 있지 않은가(슬프다).
▲ IBM과 조지타운 대학이 진행한 기계번역 기술 개발 프로젝트
(출처: http://www.hutchinsweb.me.uk/AMTA-2004-ppt.pdf)
한반도 며느리(이자 엄마이자 와이프)의 한이 전해지기라도 한 것인지, 1954년 IBM과 조지타운 대학은 '기계번역 기술 개발 프로젝트'를 통해 최초로 음성인식 기술을 거론했다. 하지만 애니악이 탄생한 지 10년도 안 된 저 시기에 사람의 목소리를 인식하고, 단어와 문장을 이해하고, 정보를 처리할 프로세서가 있을리 만무했다.
왜 음성인식 기술은 외면 받았을까?
▲ 91년에도 존재한 음성인식 전화기 (출처: 네이버뉴스 라이브러리 경향신문 1991년 4월 2일 발행 13 광고면)
그래도 음성인식 기술은 아장아장 발전하고 있었다. 1990년대에는 전화번호를 부르면 자동으로 전화를 걸어주는 음성인식 전화기라든지 전화 예약을 컴퓨터가 받아주는 항공예약시스템, 구술 단어를 자동으로 받아적어주는 워드프로세스 같은 제품이 등장하기도 했다. 물론 음성으로 시키느니 내가 직접 하는게 훨씬 빨라서 상용화엔 실패했지만...
결정적으로 당시의 음성인식 기술은 사용자의 의도를 파악하기 어려웠다. 왜냐? 당시의 음성인식 기술은 소수의 개발자(전문가)가 많은 수의 규칙과 상황을 데이터로 직접 프로그래밍했기 때문에 사람의 의도를 명확히 파악하는 데 한계가 있었다.
▲ 90년대의 컴퓨터는 우리가 원하는 부자가 어떤 부자인지 판단하기 어려웠다 (출처: 픽사베이 / 네이버 인물정보)
예를 들어 ’부자가 되는 방법’을 물었을 때 기존의 음성인식 기술로는 그 부자가 돈 많은 부자인지, 아들과 아버지인지, 강부자인지 분간하기 어려웠다. 그래서 오랜 시간 지지부진하다가 스마트폰이 대중화된 2010년대에 들어서 비약적으로 발전하기 시작했다. 왜냐? 스마트폰이 사용됐기 때문이다.
우리 음성인식이 달라졌어요~ 빡씨게 공부해서
▲ 머신 러닝과 딥 러닝 덕에 비약적으로 발전한 음성인식 AI (출처: 픽사베이)
스마트폰의 상용화로 사용자의 각종 니즈를 분석할 수 있는 빅데이터가 구축됐다. 이 방대한 데이터를 머신러닝으로 분석하고, 더 나아가 컴퓨터가 스스로 학습하고 결과를 도출하는 딥러닝이 가능해지면서 기존의 한계를 극복할 수 있게 됐다. 이로써 음성인식 기술은 이제 대중이 진짜로 필요로 하는 서비스를 지원할 수 있게 되었다.
▲ 애플의 시리
먼저 음성인식 AI를 대중적으로 내세운 것은 2011년 아이폰4S에 탑재된 시리였다. 그러나 딥러닝 초기단계에 개발돼서 그런지 기대에 미달인 똥멍충이 같은 성능 덕에 유머 소재로 조롱받았다.
▲ 아마존의 에코 (출처: 픽사베이)
그로부터 3년 뒤 MS와 아마존도 각각 음성인식 AI인 코타나(cortana)와 알렉스를 선보였는데, 아마존의 알렉사를 탑재한 스마트스피커 ‘에코’가 미국에서 대박을 터트렸다. 이유는 간단했다. 시리와 달리 말길을 잘 알아들었기 때문이다.
번거롭게 검색해서 찾아야 할 일이 질문 하나로 해결되니 게으른 미국인들이 홀릭되는 것은 당연했다. 덕분에 에코는 2018년까지 미국에서 오천만 대 이상이 판매되며 시장 점유율 1위(70%, 미국 시장조사회사 CIRP)를 차지한다.
▲ 2017~2018 미국 스마트 스피커 점유율 (출처: www.cirpllc.com)
결정적으로 2019년에 6만 원 미만의 부담 없는 가격대로 무장한 보급형 스마트스피커가 대거 등장하며 미국에서는 스마트스피커만 1억1,400만대 이상 보급되었다. 스마트스피커가 일반 가전으로 자리하게 된 결정적 계기인 셈이다.
▲ 구글 어시스턴트의 음성 인식률 (출처: Kleiner Perkins Caufield & Byers&Mary Meeker)
그러던 2016년, 검색엔진 구글에서 이를 갈고 출시한 것이 있으니 바로 구글 어시스던트다. 구글은 음성인식을 비롯한 인공지능 플랫폼 구축을 위해 관련 스타트업을 대거 인수하는 등 공격적인 행보를 보였는데, 2017년 캘리포니아에서 열린 코드 컨퍼런스의 인터넷 동향 보고서에 따르면,
구글의 머신러닝 테스트 결과 인간의 소통 수준인 95%의 음성 인식율을 기록했다.
▲ 다른 실험에서도 우수한 정확도를 보여준 구글 어시스턴트 (출처: venturebeat.com)
여기 이해를 도울 한 가지 사례를 보자. 지난해 미국 벤처 캐피털 루프벤처스에서 구글 어시스턴트, 시리, 아마존 알렉사 세 개 AI 서비스를 대상으로 지능지수 테스트를 진행했다. 지역 정보의 이해(Local), 전자상거래(Commerce), 네비게이션(Navigation), 정보처리(Information), 명령(Command) 다섯 개 카테고리로 분류된 800개의 똑같은 질문을 던진 뒤 답변 정확도를 분석한 것인데, 이때도 구글이 92.9%의 적중률로 1위를 차지한 것이다(2위는 시리로 83.1%의 정확도를, 알렉사는 79.8%의 정확도를 보여줬다).
▲ 2017~2021 미국 스마트스피커 시장 점유율 (출처: www.emarketer.com)
시장조사업체 이마케터에 따르면, 구글 스마트스피커는 2017년 82.4%가 사용하던 아마존 에코의 점유율을 2019년 67.9%까지 낮추고, 31.7%의 점유율을 기록했다. 물론 구글 어시스턴트 홀로 아마존 에코를 공격한 것은 아니다. 기타 브랜드의 점유율도 높았다. 참고로 현재 스마트스피커 세계 상위 5개 브랜드는 아마존, 구글, 바이두, 알리바바, 샤오미로 스마트스피커 세계 시장은 미국과 중국 제품이 양분하고 있는 상황이다.
▲ 10억 개 이상 기기에 설치된 구글 어시스턴트
2019 CES에서 구글이 발표한 자료에 따르면 구글 어시스턴트는 스피커, 스마트폰 등 10억 개 이상의 기기에 설치돼 있으며 현재 5억 명 이상이 사용하고 있다고 한다. 이 외에도 구글은 구글 디스플레이를 출시하고 스마트폰, 스마트스피커, 웨어러블 기기 등 각종 커텍티드 제품에도 서비스를 지원하며 적극적인 행보를 보이고 있다.
▲ 미국인들은 음악 감상, 일기예보, 유머, 알람 등의 용도로 스마트 스피커를 사용한다
(출처: 어도비 디지털 인사이트 2019:2분기 보이스 리포트)
한편 지난해 어도비에서 18세 이상 미국인 1,000명을 대상으로 음성인식 서비스에 대한 조사를 진행했는데, 응답자의 36%가 음성인식 스피커를 보유하고 있으며 그 중 75%는 이를 매일 활용하고 있다고 답했다. 음성인식 AI를 주로 사용하는 기기는 스마트폰(47%), 스마트스피커(31%), 자동차(8%) 순이며, 주로 음악 감상, 일기예보, 재미있는 이야기 듣기, 알람, 일정 확인, 뉴스, 온라인 검색 시 이용하는 것으로 나타났다.
한 가지 재미있는 사실은 이 조사를 통해 (우리가 극혐하는) 광고를 음성으로 접할 때는 TV, 신문, 온라인 매체 대비 거부감이 덜하다는 응답자가 많았다는 것인데, 이 음성인식 광고와 관련해 버거킹에서 한 가지 흥미로운 사고를 쳐주셨다. 자, 아래 광고 영상을 클릭해보자.
▲ 당시 많은 논란을 빚었던 버거킹 광고
직원이 ‘오케이 구글 와퍼가 뭐야?’ 묻자 당시 광고가 재생 중이던 미국 전역의 음성인식 스피커, 스마트폰, 태블릿 등에 탑재된 구글 어시스턴트가 반응, 와퍼에 대한 설명을 줄줄 읊은 것이다. 구글 어시스턴트는 질의응답의 경우 대게 위키피디아의 내용을 사용하는데, 문제는 버거킹에서 위키피디아에 등록된 와퍼의 설명을 광고 문구로 바꿔놓은 것이다. 아이디어는 기발했지만 개인 생활을 침해하는 선을 넘는 설정 때문에 이 광고는 여론의 뭇매를 맞으며 쓸쓸히 사라졌다.
▲ 엄마, 이제 내가 대신 할게요 (출처: 픽사베이)
자 다시 본론으로 돌아오자. 이제 음성인식 AI 기술은 명령과 수행 기반의 단순 리모콘 역할을 넘어서 알아서 답해주고, 찾아주고, 챙겨주는 대한민국의 엄마 같은 퍼포먼스를 보이고 있다. 스마트폰은 기본이고, 가전과 자동차에도 연결되어 음성을 통해 제어하는 커넥티드 시장을 창출해내고 있다.
▲ KFC도 구글 어시스턴트를 통해 주문, 배달을 시킬 수 있다 (출처: voicebot)
이는 가정에만 국한되지 않는다. 기업에서는 음식 등의 주문배달을 받아서 처리해주거나, 고객상담 같은 콜센터 업무를 대신 해주기도 하고, 호텔에서는 고객과의 음성대화를 통해 니즈를 파악하고 서비스를 제공해주는 리서치 역할을 해주기도 한다. 이제 B2C뿐만 아니라 B2B에서도 음성인식 서비스가 대세가 될지도 모르는 일이다.
▲ 동맹을 맺은 아마존, 구글, 애플
이렇다 보니 라이벌이 동맹을 맺는 진귀한 광경이 벌어지기도 했다. 지난해 12월, 시장 싸움을 치열하게 벌이던 아마존, 구글, 애플이 음성인식 플랫폼의 규격통일을 위해 ‘IP 기반 프로젝트 커넥티드 홈(Project Connected Home over IP)’을 결성한 것이다. IT시장의 새로운 먹거리가 음성인식 플랫폼으로 넘어가는 중요한 길목에서 소위 ‘밥그릇 싸움’을 벌이는 것은 후순위 일이었다.
소비자는 어떤 제품을 사든 자신에게 익숙하고 편한 음성인식 서비스를 원활하게 이용하길 바랐다. 그래서 어떤 제품을 선택하든 이용자가 자유롭게, 편하게 음성인식 서비스를 사용할 수 있도록 아마존, 구글, 애플이 손을 잡았다.
이 서비스가 상용화되면 소비자는 각 기기에서 자신이 선호하는 음성 비서를 선택할 수 있다. 즉 구글홈에서는 애플 시리를, 아마존 에코에서는 구글어시스턴트를, 애플에서는 아마존 알렉사를 사용할 수 있는 것이다.
▲ 구글 홈 세트
현재 음성인식으로 제어가 가능한 기기는 2018년 기준 25억 대인 것으로 추정된다. 아마존의 알렉사는 1억 대, 구글 어시스턴트는 10억 대에 탑재돼 있고, 중국의 바이두도 2억 대가 넘는 기기에 자사의 음성인식 서비스를 적용했다. 2023년에는 80억 대로 늘어날 전망이다. 앞으로 전자기기를 구입할 때는 ‘음성인식 제어 가능 여부’가 중요한 기준이 될지도 모른다.
▲ 음성 어시스턴트가 차량 구매 여부에 끼치는 영향은? (출처: Voicebot)
음성 마켓 리서치 기업인 Voicebot에 따르면 1,090명의 미국 성인을 대상으로 조사한 결과 자동차를 살 때 63%가 음성인식 지원 여부를 고려한다고 한다. 실제 미국에서는 1억 2,970만명의 운전자가 음성인식 기능을 사용하고 있는데, 이는 스마트스피커보다 훨씬 높은 수준이다. 음성인식 비서 기능이 가정에서는 그저 유용한 정도에 그치지만 도로에서는 안전과 직결되는 요소기 때문에 안전벨트 수준으로 여겨진다는 것이다.
물론 음성인식 AI 서비스가 마냥 긍정적이진 않다. 먼저 사생활 침해에 대한 우려가 크다. 우리의 음성에 반응한다는 것은 우리의 정보가 계속 노출돼 있다는 뜻이다. 실제로 아마존, 애플, 구글, 페이스북에서 인공지능 성능 향상을 위해 사용자의 대화를 동의 없이 녹음한 사실이 밝혀져 논란이 일었다.
▲ 개인의 정보나 행위가 의도치 않게 이용당한 경우를 두고도 하이재킹 당했다고 표현한다 (출처: 픽사베이)
도청 및 해킹, 하이재킹에 대한 위험도 크다. 하이재킹(highjacking)이란 운송수단을 대상으로 하는 불법적 납치행위를 뜻하는 용어인데, 최근 IT기기, 통신에서 인공지능이 활발히 이용되면서 개인의 정보나 행위가 의도치않게 이용당한 경우를 두고도 하이재킹 당했다고 표현한다. 예를 들어 우리가 자주 검색하는 단어의 정보를 분석해 연관된 상품 광고를 자동으로 띄우는 것도 하이재킹에 속한다.
앞서 소개한 버거킹 광고도 '광고 음성'을 통해 개인의 인공지능 비서를 조종했다는 점에서 하이재킹이라 볼 수있다. ‘와퍼에 대한 설명’ 정도야 애교 수준이지만 만약 냉장고, 전기레인지 등의 가전을 음성으로 컨트롤 할 수 있는 홈스피커를 노리고, 누군가 ‘전기레인지를 켜줘’, ‘문을 열어줘'처럼 안전을 위협하는 명령을 내린다면 어떻게 될까? 생각만 해도 끔직한 일이다.
▲ SK텔레콤의 음성인식 기반 AI스피커 '누구' (출처: SKT)
여기까지 읽느라 고생 많으셨다. 이제 얼마 안 남았다. 그런데 일부 독자들 중에서는 위 사례들이 먼나라 이야기처럼 여겨질 것이다. 안타깝게도 우리나라에서는 인공지능 AI가 해외만큼 대중적이지 않기 때문이다. 스마트스피커를 예로 들어보자. 과학기술정보통신부에 따르면 2016년, SKT에서 우리나라 통신사 최초 음성인식 기반의 AI스피커 '누구'를 출시한 이후 KT(기가지니)와 LG, 네이버(웨이브/프렌즈), 카카오(카카오미니)도 AI스피커를 출시했는데, 3년이 지난 2019년에야 412만 대가 팔린 수준이었다.
▲ 4차산업혁명 지표 중 음성인식/AI관련 지표 (자료출처: 과학기술정보통신부)
한 가지 반가운 소식은 점점 성장하고 있다는 것이다. 과학기술정보통신부 4차산업혁명 지표 자료에 따르면 2019년 AI관련 API를 이용한 건수는 자그마치 1,200만 건(2018년에는 150만건)에 달했으며 미미해보였던 스마트스피커 판매량도 2018년에 비하면 2배 이상 늘어난 수치이며(2018년 206만 대, 2019년 412만 대), 사물인터넷 커넥티드 제품도 1,865만 개(2018년에는 1400만개)가 사용되고 있음을 알 수 있다.
글로벌 시장에 비하면 아직 우리나라의 음성인식 AI 시장은 꼬꼬마 규모다. 하지만 성장 가능성은 분명히 있다. 검색 시간도 아까워하는 성격 급한 한민족 특성과 퇴근 후 적막한 집에서 홀로 여가를 보낼 584만 명의 1인가구, ‘엄마! 여보!’에서 벗어나고 싶은 기혼 여성들이 있는 한국은 음성인식 AI 시장이 빠르게 성장할 수 있는 잠재력을 갖고 있다. 이제 우리나라에서 음성인식 플랫폼이 대중적으로 자리잡게 되는 것은 시간 문제일 것이다.
글 , 사진 / 다나와 오미정 (sagajimomo@danawa.com)