디지털 시대인 오늘날에는 하나의 기기가 여러 가지 역할과 기능을 수행하고 있습니다
영화 <8월의 크리스마스>에는 이런 장면이 등장합니다. 죽음을 앞 둔 주인공은 아버지에게 비디오의 예약녹화 방법을 설명하다 결국 화를 내버리고 맙니다. 아들에게는 남은 시간이 얼마 없는데, 아버지는 몇 번을 설명해도 조작법에 익숙해지지 않습니다. 써놓고 보니 굳이 영화를 인용할 필요가 없었을지도 모르겠습니다. 온전한 아날로그 세대인 부모님께 PC와 스마트폰 사용법을 알려드려 본 이 땅의 모든 자식들이 했던 경험일 테니까요. 반면 디지털 네이티브 세대(태어날 때부터 세상이 디지털이었던)는 사용설명서가 DNA에 새겨져 있는 것처럼 가르쳐 주지 않아도 디지털 기기를 잘 사용합니다. 왜 이런 차이가 발생하는 걸까요?
아날로그 기기들은 하나의 버튼에 한 가지 기능만 있습니다. 그렇기에 모든 기능을 외워서 조작 하는 것이 가능합니다. 또한 아날로그 기기는 하나의 기능만을 위해 작동하고, 그 기능을 조절하는 버튼들로 구성되어 있기 때문에 복잡하지 않았습니다. 반면 디지털 시대로 넘어 오면서 하나의 기기에 여러 가지 역할과 기능이 부여되었습니다. 만약 아날로그 시대처럼 하나의 버튼에 하나의 기능을 넣는다면 지금 출시되는 제품의 겉면은 버튼으로 가득 찼을 겁니다. 어쩌면 버튼을 다 못 넣는 기기도 있었겠죠. 그래서 디지털 시대에 들어 중요하게 생각된 개념이 UI와 UX 입니다.
UI(User Interface)는 한마디로 사용자가 앱이나 프로그램, 기기를 조작할 때 마주하게 되는 디자인, 레이아웃 등을 의미합니다. UX(User Experience)는 사용자가 UI를 조작하면서 오감으로 느끼게 되는 경험입니다. 아이폰에서 사진 촬영 버튼을 눌렀을 때 카메라 조리개가 닫혔다 열리는 효과나 스마트폰에서 가상 키패드를 누를 때 나는 소리나 진동 같은 것들이 대표적인 UX입니다. 다양한 사용자가 쉽게 사용할 수 있도록 보편성을 가져야 하며, 특별한 설명이나 오작동 없이 사용할 수 있는 것이 좋은 UI일 것입니다. 문제는 사용자가 기기를 조작하기 위해서는 이 보편성에 대한 어느 정도의 학습이 필요하다는 것입니다. 우리 부모님 세대에게 이 학습은 꽤나 어려운 것이고, 새로운 세대에게는 자연스러운 것이죠. 그럼 자동차를 조작하는 건 어떨까요?
이미 자동차 역시 디지털
음성인식 기술은 어려운 학습이 필요 없습니다. 일상어로 말하면 명령과 수행이 가능하기 때문입니다
이미 자동차도 디지털화되어 버렸습니다. 특정 기능을 이용하기 위해서는 UI의 보편성에 대해 어느 정도 학습돼 있어야 합니다. 때로는 몇 단계 안쪽으로 찾아 들어가야 하는 경우도 많습니다. 물론 제조사들은 이 과정을 더 쉽게 하기 위해 많은 노력을 기울이고 있습니다. 자동차는 전방을 주시한 상태에서 집중해 운전해야 하기 때문입니다. 그런데 조만간 이런 디지털 시스템에 대한 학습조차 필요 없는 시대가 열리게 될 전망입니다. 바로 음성인식 기술 때문입니다.
사실 음성인식 기술의 등장은 무려 1950년대까지 거슬러 올라갑니다. 미국의 통신업체인 AT&T와 벨 연구소가 공동으로 개발한 숫자 인식기 개발부터였습니다. 이후 한동안 잠잠하던 음성인식 기술은 1990년대 들어 다시 본격적으로 개발되기 시작했습니다. 1997년에는 우리나라에도 초보적인 음성인식 기술이 들어간 휴대폰이 등장했습니다. 제품의 모델명보다 ‘본부, 본부’와 ‘우리집~’이란 카피로 유명했던 휴대폰(‘본부폰’이란 별명이 붙었던)이 있었습니다. 물론 그 시절의 음성인식은 해당 번호에 사용자가 직접 음성을 녹음해 놓고 이를 비교해 해당 번호로 전화를 걸어주는 수준이었습니다. 당시만 해도 녹음하는 순간과 이후 사용 장면에서의 주변 소음에 차이가 많은 경우 인식이 잘 안 되는 경우도 있었죠. 하지만 음성인식이 꽤 매력적이고 신기한 UI였기에 다양한 내비게이션에 음성인식 기술이 탑재 되었고 관련 기술이 점점 발전하면서 음성인식률도 꾸준히 향상되었습니다. 이런 상황에서, 음성인식은 인공지능을 탑재한 음성비서를 만나 새로운 국면을 맞이하게 되었습니다.
인공지능이 탑재된 차량 용품들
서버형 음성인식을 기반으로 하는 카카오 I의 구동 과정입니다
이미 우리 주변에는 인공지능을 갖춘 다양한 음성비서들이 있습니다. 아이폰에서 사용할 수 있는 시리(Siri), 안드로이드폰에 있는 구글 어시스턴트, 마이크로소프트가 만든 코타나(Cortana), 현재 가장 많은 사용자를 가지고 있는 아마존의 알렉사(Alexa) 등입니다. 국내에는 카카오의 카카오 I와 네이버가 만든 클로바(Clova), KT의 기가지니, 삼성전자의 빅스비 등이 있습니다. 이런 음성비서들은 스마트폰에 탑재되거나 테이블에 올려 놓을 수 있는 스피커 형태의 제품으로 출시되었습니다. 다들 알고 계시는 것처럼 궁금한 것을 물어보면 대답을 하고, 음악을 틀어달라고 할 수도 있습니다. 그런데 이런 음성비서들이 탑재된 차량용 제품들도 있습니다.
아마존 알렉사가 탑재된 뮤즈의 모습입니다 ⓒMuse
뮤즈(Muse)라는 제품은 아마존의 음성비서인 알렉사가 탑재된 차량용 컨트롤러입니다. 꽤 다양한 기능이 들어있죠(현재 알렉사는 총 25,000가지의 음성명령을 인식할 수 있습니다). 음성으로 알렉사를 부르면 사용자의 음성을 인식할 준비를 끝냅니다. 음성 명령으로 다음 곡으로 넘어가거나 볼륨을 조절하는 것은 물론이고, 집안에 있는 스피커 형태의 음성비서 스피커와 동일한 것들을 할 수 있습니다.
그래서 차로 움직이면서 특정 피자 체인에 피자를 주문하거나 출근하면서 오늘의 일정을 물어보면 알려주기도 합니다. 당연히 손을 대지 않고 통화가 가능한 핸즈프리 기능도 들어 있습니다. 더 깔끔한 통화를 위해 노이즈 캔슬링 기능이 적용되는데, 알렉사가 음성 명령을 더 알아듣기 쉽게 해주는 역할도 합니다. 뮤즈는 신생 회사로 현재 크라우드 펀딩을 통해 만들어지고 있는 중입니다. 이런 신생 회사에 아마존이 굳이 자신들이 개발한 알렉사를 제공한 이유는 뭘까요? 더 많은 사람이 사용할수록 인공지능이 더 똑똑해지기 때문입니다. 뮤즈가 잠재력이 있는 제품이고, 여기에 알렉사가 들어가면 더 많은 데이터를 확보할 수 있다고 판단했기에 아마존은 뮤즈에 알렉사를 제공한 거죠. 물론 알렉사가 25,000 여 가지의 음성명령을 인식할 수 있는 것 역시 전세계의 수많은 사용자들이 제공한 데이터 덕분입니다.
로브사의 비바도 뮤즈와 비슷한 기능을 가졌습니다 ⓒROAV
또한 시가잭 충전기에 알렉사가 포함된 제품도 있습니다. 로브(Roav)사의 비바(Viva)가 그것입니다. 블루투스로 스마트폰과 연결되고 고성능 마이크와 노이즈 캔슬링 기능을 통해 사용자의 음성을 정확하게 인식합니다.
앞서 소개한 뮤즈와 비바는 현재 알렉사가 수행할 수 있는 모든 기능을 수행할 수 있습니다. 만약 집안에 있는 가전제품 중 알렉사를 지원하는 제품이 있다면 운전을 하면서 작동시킬 수도 있죠. 더운 여름 집에 들어가기 전에 에어컨을 작동시켜 놓는 것도 가능합니다. 뮤즈가 컨트롤러, 비바가 충전기에 알렉사를 포함시켰다면, 알렉사가 들어있는 내비게이션도 있습니다. 스피크(Speak)라는 제품입니다. 국내에서는 스마트워치와 스포츠 밴드로 잘 알려진 가민(Garmin)사가 만든 제품이죠.
가민사가 만든 스피크는 음성으로 길 안내를 도와주는 제품입니다 ⓒGARMIN
스피크는 탑재된 터치스크린의 크기를 자랑스럽게 이야기하는 기존 사외품 내비게이션들과 달리 음성만으로 길안내를 해주는 제품입니다. 생각해 보면 운전 중에는 앞을 봐야 하고 이런 상황에서는 시각이 아닌 음성정보에 의지해 길을 찾게 됩니다. 길 안내를 받는 동안은 화면을 보지 않아도 큰 문제가 없습니다. 이 제품은 이런 상황을 잘 알고 만들어진 제품입니다. 알렉사에게 다양한 음성 명령을 내릴 수 있고, 운전 중 잠이 오면 알렉사와 대화를 할 수도 있습니다. 이처럼 차량용 액세서리를 만드는 다양한 회사들이 제품에 음성비서를 탑재하는 상황이지만, 이런 제품들은 분명 한계가 있습니다. 바로 에어컨 온도를 조정하는 등 자동차 자체의 여러 설정과 기능들에는 접근하지 못한다는 것이죠. 이런 제한사항들은 자동차 회사가 직접 음성비서를 차량에 탑재하면 해결될 문제입니다. 그리고 현재의 상황은 이렇습니다.
인공지능 음성인식 기술의 현재
올해 CES에서 현대자동차와 사운드하운드가 선보인 음성비서의 모습입니다
자동차에 음성비서가 탑재되면 어떤 것들을 할 수 있을까요? 제일 먼저 생각해 볼 수 있는 것은 역시 음성을 이용해 카오디오의 볼륨 조절이나 내비게이션의 목적지 설정, 실내 온도를 조절하는 것입니다. 현대기아자동차와 인공지능 플랫폼인 카카오 I의 음성엔진을 기반으로 개발된 ‘서버형 음성인식’이 적용된 차량의 경우, 카카오의 음성엔진을 활용해 목적지, 맛집, 관광 명소 등 여러 정보를 검색할 수 있습니다. 기존에는 명사로만 음성인식을 사용해야 했지만 서버형 음성인식 기술 덕분에 동사 형태의 검색도 가능해졌습니다. 사실 동사형 검색이 가능하다는 것은 꽤나 편리한 일입니다. 명사형으로 명령을 하는 과정에서는 적절한 명사를 생각해내야 하지만, 동사형 검색은 그냥 평상어(자연어)로 이야기 하면 되니까요.
올해 1월 미국 라스베가스에서 열린 CES에서 현대자동차는 사운드하운드와 함께 음성비서 서비스를 선보였습니다. 사운드하운드(SoundHound)는 2005년 설립된 음성인식 및 인공지능 등을 연구하는 회사입니다. 이에 더해 이 회사는 복잡한 자연어 인식 분야에서 독보적인 기술을 보유하고 있는 회사기도 합니다. 현재 이들이 개발한 음성인식 플랫폼을 사용하고 있는 회사들은 엔비디아와 우버, 샤프 등 1만 5천 여 개나 됩니다.
현대기아차가 선보인 인공지능 음성인식 시스템 역시 사용자가 명령이나 질문을 하면 네트워크로 연결된 사운드하운드의 인공지능 서버가 이를 인식하고, 각 상황에 맞는 차량 제어 신호나 답변, 정보들을 다시 자동차로 보내줍니다. 현재 이 시스템으로 이용할 수 있는 기능은 전화 걸기와 문자메시지 송신과 수신, 검색, 날씨정보 확인 및 일정 관리 등 일반적인 인공지능 음성비서가 할 수 있는 일들에 더해 에어컨이나 선루프, 도어 잠금 등의 차량 제어가 가능합니다. 또한 집에 있는 다양한 전자 기기들을 음성으로 컨트롤 할 수 있는 카투홈(Car To Home) 서비스를 이용할 수도 있습니다.
지난 4월 상하이에서 출시된 소형 SUV 엔씨노의 모습입니다
현대자동차의 중국 합자법인 베이징현대가 지난 4월 10일 상하이에서 출시한 소형 SUV 엔씨노(국내명 코나) 역시 중국 바이두와 협업으로 개발한 통신형 내비게이션 '바이두 맵오토'와 대화형 음성인식 서비스 '두어 OS'를 적용해 커넥티비티 서비스를 대폭 강화했습니다. 바이두는 인공지능과 음성인식 분야에서 중국은 물론 세계적으로 손꼽히는 기업입니다.
바이두의 대화형 음성인식 기술을 차량용으로 이식한 ‘두어 OS’는 차량 내에서 '니하오, 베이징현대'라고 부르면 음성인식 작동이 시작됩니다. 네크워크로 연결된 바이두의 인공지능 서버가 운전자의 명령에 최적의 답변이나 정보를 알려주죠. 앞서 설명한 카카오 I나 사운드하운드의 서버와 비슷한 기능을 수행합니다.
그렇다면 여기서 왜 음성을 굳이 서버로 보냈다가 다시 자동차로 받는지 궁금한 분들이 있을 겁니다.
첫 번째 이유는 음성을 인식하고 내용을 파악하며, 그 이면에 숨겨진 사용자의 의도까지 알아내기 위해서는 꽤 복잡한 과정을 거쳐야 하기 때문입니다. 이를 위해서는 고사양의 PC가 필수입니다.
두 번째 이유는 자동차 내의 소음입니다. 자동차 실내에서는 끊임없이 소음이 발생합니다. 이 소음과 운전자의 음성을 명확히 구분해 인식해야 하고, 같은 단어라 해도 운전자마다 조금씩 발음이 다르다는 문제도 있습니다. 여기에 자동차의 모든 서비스는 안전이 전제되어야 하기 때문에 높은 음성인식률이 필요합니다. 이런 상황을 해결하는데 필요한 것이 서버형 음성인식 기술입니다. 그리고 사실 이 기술이 도입되고 나서야 인식률이 획기적으로 개선될 수 있었습니다.
내 마음을 알아주는 자동차
음성인식의 보편화는 자율주행차의 시대와 함께 올 것입니다
아직은 완벽하지 않지만, 가까운 미래에는 차량의 모든 기능을 음성으로 조절하고 조작할 수 있는 시대가 오게 될 것입니다. 그럼 이후에는 어떤 기술이 등장하게 될까요? 최근 혼다는 일본의 이동통신회사인 소프트뱅크 그룹 소속의 코코로(cocoro SB)가 개발한 ‘감성엔진’을 차량에 적용시키는 연구를 진행 중입니다. 이 감성엔진은 운전자의 음성인식은 물론이고 대화와 내부 카메라 등 각종 센서 정보를 활용해 자동차가 운전자의 감정을 추측하고 감성을 갖는 것을 목표로 하고 있습니다. 자동차가 조금 우울해 보이는 운전자의 얼굴과 약간 높아진 체온을 인식하고 ‘스트레스를 받으신 거 같아요. 신나는 음악을 틀어 볼까요?’라고 물어볼 수 있는 것이죠.
음성인식이 모든 차량에 들어갈 때쯤이면 자율주행 역시 보편화 될 것이란 예측이 많습니다. 자율주행이 보편화 되면 운전자라는 개념은 사라지고 탑승자란 개념만 남게 될 것입니다. 이런 시대에는 자동차 역시 생활의 공간처럼 바뀌고 자동차의 음성인식은 스마트 스피커를 사용하는 환경과 비슷해 질지도 모릅니다. 그리고 어느 드라마에서 스마트폰 속 음성비서와 대화를 하는 주인공처럼 우리는 자동차와 대화를 하게 될지도 모릅니다(물론 현재는 아직 음성비서에게 명령만 하는 상황이지만요). 그리고 영화 < HER >에서 인공지능과 사랑에 빠지는 것처럼 자동차와 사랑에 빠질지도 모르겠습니다.
결국 미래의 자동차는 나보다 더 내 마음을 잘 아는 친구나 동반자 같은 존재가 될 가능성이 큽니다. 하지만 그 똑똑한 친구가 나를 상처 입힐 말까지는 뱉지 않았으면 좋겠군요.
글. 고진우
고진우는 영화 전문지와 음악 및 음향지를 거쳐 IT 및 디지털 분야 전문 필자로 활동 중이다. IT 제품 전문 사이트인 <얼리어답터>를 거쳐 현재는 라이프스타일 쇼핑몰 <펀샵>에서 일하고 있다. 저서로 <나는 아이디어 물건에 탐닉한다>가 있다.
◆ 이 칼럼은 필자의 주관적인 견해이며, HMG 저널의 편집 방향과 다를 수 있습니다.