|
10여년 전부터 음성인식 기술은 우리를 꿈에 젖게 만들었다. 곧 세상이 말 한마디로 마음대로 될 것 같았지만, 지금의 상용 제품을 눈으로 목격하기까지는 상당한 시일이 걸렸다. 많은 기업들이 더 많은 애플리케이션에 음성인식 기술을 수용하려고 준비중이고 다양한 접목이 시도되고 있다. 음성인식이 단순한 연구나 개발 단계가 아닌 온·오프라인 시장과 연결돼 하루가 다르게 상용화하고 있어 매력적인 시장으로 부상하고 있다.
생활 속으로 들어온 음성인식 기술
1960년대부터 음성의 발성에 대한 기초 연구가 수행돼온 이래 기계에 의한 연속 음성인식, 합성에는 아직 많은 과제가 남아있지만, 최근 고립단어 인식에 있어서는 많은 발전이 있어 상용 제품도 등장하고 있다.
이들 인식 시스템의 대부분은 고립단어, 또는 한정된 업무 범주의 연속 음성인식 시스템이지만, 잡음 환경에서 95% 이상의 인식률을 가진 것도 많다. 따라서 까다로운 음성 식별을 요구하는 각종 자료의 수정·관리, 철도·항공편 안내와 예약, 통역전화, 자동통역시스템, 여행정보안내시스템, 관광안내시스템, 음성 다이얼링 휴대전화에 적극 활용되고 있다.
여기에 더해 온라인 비즈니스를 기반으로 한 음성 포털 서비스(증권정보 등의 전화정보 서비스·음성 다이얼링)와 오류율 1%의 화자인증 시스템도 등장했으며, 음성 처리 전용 칩의 대량 상품화, 음성 기반의 인터넷 검색 표준언어인 VXML(Voice eXtensible Markup Language) 등도 나오고 있다.
국내에 가장 잘 알려진 음성인식의 대표적인 사례는 헤이아니타(www.heyanita.co.kr)의 030311 서비스. 현재 매월 100만 콜 이상을 처리하고 있는 030311 서비스는 세계적으로 가장 성공한 음성 포털 서비스 사례로 꼽히고 있다.
음성 포털이 음성 기술 구현의 시험대라면, 음성 기술의 본격적인 상용화는 기업 시스템을 대상으로 한다. 기업의 고객 대상 CTI(Computer Telephony Integration) 콜 센터, CRM(Customer Relationship Management) 구축 등과 기업 내부의 인트라넷에 적용한 음성 기술 등이 실질적인 사업영역이 되고 있는 것이다.
국내 음성인식 업체들, 선점 경쟁 가열
올 들어 무르익고 있는 음성인식 시장을 선점하기 위해 국내 업체들이 분주하게 움직이고 있다. 보이스웨어·팍스브이알·SL2·엑트밸리·디앤엠테크놀로지·보이스피아 등 음성 기술 업체들은 자사가 보유한 음성 합성기의 음색을 다양화하거나 연결어 인식 기능을 보강한 인식기를 개발하는 등 시장 확대에 박차를 가하고 있다.
보이스웨어는 음성 합성기의 저변 확대를 위해 남성 성우 1명과 여성 성우 2명의 음색으로 구성된 기존 제품에 남성 성우 1명의 음색과 인기그룹 H.O.T의 목소리를 단계적으로 추가하고 있다. 음성인식기 제품도 기존 가변어 인식에서 연결어 인식 기능을 보강해 이달 출시한다.
한국엑시스는 지난 6월 팍스브이알(PAXVR)로 사명을 변경하고 음성인식 대화형 인형(영어/한국어/일본어 버전), 음성인식 작동형 완구, 음성인식 시계, 음성인식 전자북, 음성인식 전등, 휴대용 언어 통역기, 음성인식 휴대전화, 가상현실 어학학습 시스템 등 다양한 응용 상품을 내놓아 시장에서 좋은 반응을 얻고 있다.
SL2는 핵심어 검출, 문법기술 연결단어 인식 등 기능이 보강된 음성인식 소프트웨어개발자도구(SDK) 2.0을 내놓고 시장 확대에 나서고 있다. 음질을 향상하고 발음 사전에 등록돼 있지 않은 단어를 사용자가 손쉽게 추가할 수 있는 음성합성 SDK도 상용화하는 한편, 화자 적응 기법이 적용된 PC 기반의 딕테이션 제품을 추가로 선보여 음성인식·음성합성·딕테이션 시장을 동시에 공략한다는 전략이다.
엑트밸리는 최근 음성의 단절 현상을 수정한 버전 2 음성합성기 개발을 마쳤고 연결어 인식 기능을 보강된 음성인식기를 업그레이드하고 있다. 하반기에는 PDA·완구 등에 내장하는 소형 임베디드 음성인식기도 내놓을 계획이다.
이밖에 디앤엠테크놀로지·보이스피아 등 10여 업체가 시장 참여를 서두르고 있어 국산 음성 기술 개발은 가속화될 전망이다.
외국 음성인식 업체, 국내 시장 진출 가속화
국내 음성인식 시스템 시장이 활성화되면서, 외국계 음성인식, 합성 업체들의 시장 진출도 줄을 잇고 있다. 미국의 포닉스(Phonix), 컨버세이(Con versay), 스피치웍스(SpeechWorks), 버발텍(Verbaltec), 뉘앙스(Nuiance), 헤이아니타(Heyanita) 등이 속속 국내에 지사를 설립했거나 설립을 타진중이고, 국내 업체들과 기술 제휴를 맺는 등 다양하게 공세를 펼치고 있다.
이들 업체가 너도나도 국내 시장 진입을 서두르는 이유는 음성인식 시장 활성화와 연관된 인터넷 산업의 발전 속도가 아시아권 국가 중 최고 수준을 기록하고 있는 데다, 국내 가전, CTI, 이동전화, PDA 업체들이 음성인식 기술을 채택하려는 움직임이 빨라지고 있기 때문.
가장 먼저 국내 시장 참여를 선언한 포닉스는 지난해 CTI 업체인 시스윌과의 제휴한데 이어, 올 들어 보이스웨어, 엑트밸리와 제품을 공동으로 개발하기로 하는 등 시장 발판 마련에 열을 올리고 있다.
음성인식과 합성, 필기체 인식기술을 보유한 포닉스는, 연말에 한국, 일본을 포함한 아시아권 국가를 공략하기 위한 전진기지를 서울에 마련하기로 했고, 구체적인 설립 시기와 방법은 시장 추이를 보고 결정할 계획이다.
컨버세이도 국내 시장 공략을 본격화하고 있다. 우선 PDA·스마트폰·웹패드 등 각종 휴대용 단말기에 적용할 수 있는 음성인식 기술로 시장에 진출하는 한편, 초기 시장 진입을 가속화할 수 있도록 임베디드 개발자 네트워크를 구성해 나간다는 방침이다.
스피치웍스는 국내 업체인 메텔을 통해 현대증권에 음성인식 증권주문 솔루션을 공급하는 등 활발하게 움직이고 있다. 이밖에 한국어, 영어, 일어, 중국어 등을 지원하는 음성인식기를 개발한 버발텍이 하반기에 국내 지사를 설립할 계획인 것으로 알려지고 있다.
지난 2월 지사를 설립한 뉘앙스 코리아는 코오롱정보통신, 예스테크놀로지와 제휴하고 시장 넓히기에 들어갔다. 뉘앙스코리아의 최승훈 사장은 “음성인식과 음성인증을 통합, 웹과 전화망을 통해 고객의 문의에 응대할 수 있는 음성인식 솔루션인 뉘앙스 7.0의 한글 버전 개발과 협력사를 선정했다”고 밝혔다.
뉘앙스 7.0은 기존 자동응답처리시스템이 복잡한 신원확인 절차나 중간 코드 번호를 눌러야하는 번거로움을 없애 사용자의 음성만으로 신원 확인이 가능하다.
기업 음성 시스템 구축 활발
뉘앙스나 스피치웍스가 순수한 음성인식 솔루션 업체인 데에 비해 기업 음성 시스템 구축 업체인 헤이아니타는 자사가 독자 개발한 음성솔루션 미들웨어를 중심으로 음성솔루션, CTI, 음성 데이터 처리 전용
업체와 협력해 기업 시스템 구축면에서 가시적인 성과를 내고 있다.
헤이아니타는 기업 시스템 구축 시 시스템이 솔루션에 독립적이지 못하면 업그레이드나 교체에 어려움이 있어 시스템 자체가 애물단지가 될 소지가 있다는 점을 감안, 시스템의 독립성을 보장해 줄 수 있는 미들웨어를 개발하는 데 중점을 뒀다.
구축 제품에는 로커스의 CTI 솔루션, 인텔의 음성 데이터 전용 처리
, 스피치웍스의 음성인식 솔루션, 보이스웨어의 음성합성 솔루션 등이 포함돼 업체별 특성과 요구에 따라 다양한 솔루션 옵션을 제공할 수 있다.
헤이아니타코리아의 이중삼 사장은 “기업 음성시스템 시장이 초기 단계이나 기업의 생산성을 높여 줄 것”이라며, “상반기 내에 음성시스템을 구축한 업체들의 경쟁력 강화의 성과가 빠르게 드러날 것으로 본다”고 덧붙였다.
헤이아니타는 자사의 기업 음성 시스템 사업을 크게 ▲키워드 시스템 ▲ASP(Application Service Provider) ▲SI로 나눠 올해는 키워드 시스템과 ASP 구축에 집중하고, 2002년부터는 본격적인 SI에 나선다는 계획이다.
관련 업체들은 아태 지역 시장에서 한국이 시장 발전 속도나 인구 대비 시장 규모면에서 앞서 있기 때문에, 외국계 음성인식 업체들의 국내 시장 공략 바람은 앞으로도 계속될 것이며 아시아권 시장에 진출하기 위한 교두보로서의 역할을 하게 될 것이라고 내다봤다.
임베디드 적용으로 애플리케이션 범위 확장
음성인식 업체들이 반도체나 하드웨어 제품 개발을 통해 임베디드 애플리케이션 시장에도 적극 진출하고 있다. 가전, 네트워크, 인터넷이 통합되는 인터넷 정보 가전에 임베디드 음성인식 칩을 적용하기 위해 자체 개발은 물론 가전 업체들과 손잡고 시장에 참여하고 있다.
이런 업체들의 움직임은 소프트웨어 형태의 음성인식 제품은 적용 범위에 한계가 있지만, 내장형 칩이나 하드웨어 형태로 만들 경우 가전, 로봇, 통신단말기 등 광범위하게 확대될 수 있다는 데서 이유를 찾을 수 있다. 이들 업체는 기존 소프트웨어 형태의 음성인식 기능을 DSP(Digital Signal Processing) 칩 속에 내장해 전자 제품, 로봇, 완구 등 생활 전자 분야와 접목시켜 나가고 있다.
보이스웨어가 DSP 업체인 자람테크놀로지와 음성인식 반도체 개발과 판매를 하기로 했고, 디앤엠테크놀로지는 DSP 기반 음성인식 모듈 개발을 완료하고 하반기 출시를 앞두고 있다.
보이스웨어의 경우, 약 20개의 음성을 인식할 수 있는 칩을 통해 기업이 원하는 기능에 맞춰 인식되는 단어와 단어 수를 쉽게 바꿀 수 있는 것이 특징이다. 대량 생산에 들어간 음성인식 칩은 가변어 인식 방식으로, 고정단어 인식 방식에 비해 인식률이 높으면서 가격은 기존 수준으로 저렴해 세계 시장에서도 경쟁력을 확보할 수 있을 것으로 기대된다.
또 기존 신경망 방식의 고정 단어 인식 칩이 대상 단어가 바뀔 때마다 평균 3~4개월 간의 업데이트 기간이 필요했으나, 가변어 인식 칩은 단어의 변경이 쉽기 때문에 대화형 장난감과 이동전화기, 핸즈프리, 음성 다이얼링 등 인식 대상 단어가 자주 바뀌는 제품에 적합하다는 설명이다.
CTI 콜센터·CRM·VAD·멀티미디어 등과 접목
음성 기술을 기반으로 한 기업 시장이 IT 업계의 주목을 받는 것은 하나의 시스템 구축에 필요한 관련 분야의 성장을 동시에 몰고 가기 때문이다. 특히 경기 부진으로 기업 콜 센터가 주춤하면서 답보 상태에 있던 관련 산업에 새로운 시장을 열어주고 있다.
음성 기술은 CTI 콜센터, CRM, 음성인식 다이얼링 제품인 VAD(Voice Act ivate Dialing), 멀티미디어 영역 등과 오버랩되면서 시너지 효과를 내고 있다.
콜 센터의 경우 이용자가 기업의 콜 센터에 전화를 걸면 종전과 달리 버튼을 누르거나 기다릴 필요없이 간단히 키워드를 말하면 필요한 정보를 얻을 수 있다. 음성 기술과 CTI 솔루션이 결합된 콜 센터는 소비자가 필요한 정보를 상담원 없이도 24시간 편리하게 제공할 수 있고 기업의 경비 절감 효과와 함께 고객 만족도를 높여주는 이점을 제공한다.
CTI 업체인 예스테크놀로지는 한국어 자연어 음성인식 시스템을 적용한 증권거래, 연속 숫자음 인식, 홈 네트워킹, 음성인식자동교환, 기타 예약서비스 등을 하고 있다. 연속 숫자음 인식의 경우는 기수, 서수 등을 섞어서 말해도 인식할 수 있다는 것이 장점으로 최대 16자리까지 인식할 수 있다.
사이버 도우미를 통해 날씨, 오늘의 운세, 가요청취 등 각종 음성인식 서비스를 받을 수 있도록 적용한 음성인식 자동교환 시스템은, 교환원이나 내선번호를 누르지 않고도 원하는 사람 이름이나 부서명을 말하면 자동 교환된다.
음성인식 증권정보시스템은 현재 증권사를 대상으로 시범서비스를 실시중으로 하반기에 본 서비스를 실시할 예정이며, 목소리만으로 개인의 신분을 인증받을 수 있는 화자 인증 솔루션과 음성 포털 서비스 구축도 계획중이다.
또 한국 자연어 음성인식 시스템을 적용한 증권거래, 연속 숫자음 인식, 홈 네트워킹, 자동교환, 기타 예약 서비스 등 다양한 솔루션을 선보인다.
음성인식과 합성기술을 이용하는 진보된 기술 중 하나인 음성인식 다이얼링(VAD : Voice Activated Dialing)도 상용 제품으로 출시되기 시작했다. VAD는 음성인식 기술을 통신 서비스와 통합하는 형태로, 유선 전화와 핸드폰에서 음성으로 전화를 걸 수 있게 해준다.
SS7 신호처리와 전화 통신의 서비스 애플리케이션을 개발해온 노스텍이 출시한 NOS-VAD 시스템은 사용자가 편리하게 사용할 수 있도록, 음성 다이얼링 뿐 아니라, 음성에 의한 전화번호부 저장, 관리, 회의 통화기능, 이용자 정보의 등록, 조회, 관리 등의 기능을 지원한다.
서비스 업체는 NOS-VAD를 이용해 회원의 추가, 관리, 삭제기능을 간단히 처리할 수 있고 중계선, 통화 루트의 통계와 No.7 신호선의 정보, 음성인식/합성의 통계 등을 쉽게 조회해 볼 수 있다.
NOS-VAD는 통화를 위한 처리용량이 1만 2000BHCA(최번시 통화 시도율)이며, 초당 120통화를 처리할 수 있는 No.7 링크와 장비 당 960회선 용량을 제공한다. 이런 처리용량은 서비스의 규모에 맞춰 확장할 수 있으며, 기간통신 사업자의 서비스에도 적용 가능하다. 노스텍은 이 시스템을 기간통신사업자, 별정통신, ISP 사업자뿐 아니라, 대기업 콜센터 등의 솔루션으로도 공급할 계획.
음성인식은 멀티미디어 환경 구축에도 여러 형태로 사용되고 있다. 활용 분야는 각종 멀티미디어 기기의 입출력 인터페이스, 자동차 네비게이션 시스템, 대화형 자판기, 대화형 로봇, 3차 컴퓨터 시스템 개발, 제품 검사, 멀티모드 의료 서비스, 각종 DB 검색, 멀티모드형 인터넷 검색기, 홈쇼핑, 자동 예약/문의 시스템, 음성 입출력 PC, 전자 메일 시스템 개발, 멀티모드형 자동항법 장치 개발, 키오스크 개발 등 헤아릴 수 없을 정도로 많다.
유무선 지원하는 음성 포털이 도화선 역할
최근 들어 가장 두드러진 음성인식 활용 분야는 처음으로 비즈니스에 적용되기도 했던 음성 포털이다. 음성 포털은 이용자가 전화를 걸어 정보의 키워드를 말로 명령하면 인터넷에서 날씨와 교통 등 각종 생활정보를 검색, 음성으로 들려주는 포털 서비스다.
음성 포털은 음성인식·합성, 화자인증 기술 등을 활용해 유무선 전화기를 통한 다양한 방식으로 정보를 음성으로 조회하고 들을 수 있는 서비스를 지원한다. 이 서비스를 이용할 때 인터넷 브라우저나 PC를 사용할 필요가 없다.
음성 포털 서비스 시장에서 활발하게 사업을 전개하고 있는 헤이아니타는, 일반 소비자를 대상으로 iMBC, 매일경제, 맥스무비, 시티넷, 대한항공, 코리아닷컴, 사이더스 등과 제휴해 양질의 컨텐츠를 구축하고 있다.
헤이아니타가 현재 가장 집중하고 있는 키워드 시스템은 자사의 음성 포털 030311의 허브 개념의 기업 음성 시스템을 구축하는 것으로, 030311로 전화를 걸어 음성 포털 헤이아니타에 연결되면 각 기업의 키워드를 말해 해당 기업의 정보를 얻거나 거래를 할 수 있다.
예를 들어 최근 시스템을 구축한 대한항공의 경우 국번 없이 030311번으로 전화를 걸어 헤이아니타에 연결된 후 ‘대한항공’이라는 키워드를 말하면, 대한항공의 운항·예약 서비스 등에 대한 음성정보를 이용할 수 있다.
실제로 대한항공은 시스템 구축 후 항공권 예약 등이 크게 늘어 상당한 매출을 얻고 있는 것으로 알려지고 있다. 전화를 통해, 웹사이트의 다양한 정보를 음성으로 검색해 음성으로 들을 수 있기 때문인 것으로 분석된다.
현재 헤이아니타는 사이더스, 퀴즈퀴즈 등 온·오프라인 기업의 키워드 시스템을 구축중이며, 기존 콜 센터를 경쟁력있는 음성시스템으로 교체하려는 업체들과 계약을 추진하고 있다. 헤이아니타는 올해 20여 개 안팎의 업체를 레퍼런스 사이트로 확보할 수 있을 것으로 보고 있다.
음성 포털은 통합메시징서비스(U
) 분야에서도 응용되고 있다. 전자우편이나 음성메일 일정, 주소록 관리 등을 처리된 음성 정보를 바탕으로 편리하게 업무처리에 활용할 수 있다. 음성 포털 서비스는 음성전용 엔터테인먼트 외에 음성을 이용한 전자상거래로 활용 범위와 영역을 넓혀 나갈 수 있을 것으로 기대된다.
이를 위한 기술 요소로는 음성인식, 합성, 화자인증 기능을 갖춘 음성엔진·CTI·음성사용자인터페이스·음성 XML 등이 거론되고 있다.
인터넷 포털은 PC, 유선 인터넷 포털은 WAP 단말기 등에서 사용되지나, 음성 포털은 이 둘을 포함하는 것은 물론이고 유무선 전화에서도 사용할 수 있어 폭넓은 사용 플랫폼을 장점으로 한다.
국내의 경우는 인터넷 포털 사용자가 1200만명, 무선 인터넷이 이제 막 시작단계에 있으나 음성 포털은 휴대폰 사용자 모두를 당장 흡수할 수 있어 엄청난 잠재력을 가질 것으로 기대를 받고 있다.
기술 적용·시장 활성화가 숙제
이렇게 촉망받는 음성인식 기술이 장밋빛 미래를 약속하지는 않는다. 가능성을 보면 무한하지만 실상을 보면 아직도 넘어야할 산이 많다. 압축해보면 기술적인 문제, 그리고 투자를 환원할 제품 상용화를 어떤 방식으로 이뤄나갈 것인가 하는 문제가 남는다.
음성인식 기술은 현재의 통계적 방법을 기반으로 대량의 음성 데이터에 기초를 둔일상 언어의 언어모델을 구축하는 것이 바탕이 돼야한다. 따라서 다수화자의 음성 데이터를 기반으로 개인차의 모델을 만들어내 다수화자의 음성 적응화 알고리즘을 개발해야 한다. 또 잡음, 왜곡에 자동적으로 적응되는 방법을 확립하는 것 등이 중요한 기술적 과제다.
이런 기술적인 문제를 지원하기 위해 정부도 발벗고 나섰다. 음성 정보 산업을 21세기 소프트웨어 수출 전략산업으로 중점 육성하기 위해 오는 2003년까지 3년간 음성정보처리 핵심 기술개발, 음성DB 구축, 음성정보 관련 중소·벤처기업 육성 등에 약 1000억원을 투자할 계획을 내놓은 것이다.
국내외로 많은 개발 업체들이 음성인식 분야에 관심을 갖고 투자를 지속하고 있지만, 아직까지 이렇다할 성공적인 성과를 거두지는 못하고 있다.
음성 포털을 예로 들면, 유료화와 광고라는 2가지 수입원이 예상되지만, 아직까지 구체적인 수익을 올린 서비스 업체는 없다.
음성 포털 유료화에 대해 시장은 대단히 회의적이다. 인터넷 포털은 매일 30여분을 접속하게 되지만, 매일 30분씩 음성 포털을 액세스하는 사용자는 드물기 때문이다. 음성 포털을 사용한다고 해도 비행기표 예약, 증권 신청 등 당장 필요한 정보를 얻기 위해 단발성으로 하는 것일 뿐이다. 애플리케이션을 상용화하기 위한 매개체를 만드는 것이 시장 확산의 관건이 될 것으로 보인다.
수익 모델에 대한 회의론이 대두되자 기존 음성 포털 업체는 B2C에서 벗어나 대형 캐리어에 음성 애플리케이션을 제공하는 B2B 회사로 변신하고 있다. 이렇게 기술면으로, 시장 상황면에서 난관이 예상되지만, 음성인식 기술이 우리 생활의 일부로 빠르게 들어올 것이라는데 누구도 이견을 내지 않는다. 필요성에 대한 인식과 시장이 절실히 요구하고 있는 만큼 상용화로의 연결 고리만 제대로 만들어지면 시장은 무한하다는 가능성을 내포하고 있기 때문이다. @
`1990년대 후반 영화배우 안성기씨가 TV에서 “본부! 본부”를 외치는 모습이나, 김혜수씨가 휴대폰에 대고 “우리~집”이라고 속삭였던 휴대폰 광고를 기억하십니까? 휴대폰에 내장된 음성 다이얼링 기능을 소개하기 위한 광고들이었죠.
하지만 인상적인 광고에도 불구하고 음성 다이얼링 기능을 실제로 사용하는 사람은 많지 않았습니다. 낮은 음성인식률 때문입니다. 요즘 나오는 휴대폰에도 음성 다이얼링 기능이 있더군요. 하지만 그 때의 학습효과 때문일까요? 그 때보다 훨씬 음성인식률이 높아졌음에도 음성 다이얼링 기능을 사용하는 사람을 주변에서 본 적이 없는 것 같습니다.
이처럼 음성인식 기술은 꽤 오랫동안 촉망받아온 IT기술이었지만, 지금까지는 성공사례가 많지 않았습다. 응용분야가 무궁무진할 것으로 예상돼 관심을 끌었지만, 기술이 기대만큼 따라주지 못했던 것입니다.
그런데 최근 다시 음성인식에 대한 관심이 커지고 있는 것 같습니다.
최근 구글이 선보인 스마트폰 ‘넥서스원’ 중에 눈에 띄는 기능이 바로 이 음성인식입니다. 넥서스원에 탑재된 안드로이드 2.1에서는 모든 텍스트를 음성으로 작성할 수 있도록 보이스 키보드가 장착돼 있다고 합니다. 음성 다이얼링 기능은 기본이고, 음성으로 이메일을 보내거나 트위터에 글을 올리는 것도 가능한 것으로 알려지고 있습니다. 물론 웹검색도 음성으로 할 수 있습니다.
제가 직접 넥서스원을 사용해 보지 않아서 얼마나 정확하게 음성을 인식하는지는 알 수 없습니다만, 꽤 좋은 성능을 보인다는 평가를 받고 있는 것 같습니다. 구글의 음성인식 기술은 구글이 직접 개발한 것입니다.
마이크로소프트도 비슷한 기술을 보갖고 있죠. MS의 스티브 발머 사장은 7일 미국 라스베가스 CES 전시회에서 태블릿 PC를 들고나와 “더 이상 키보드는 필요 없다”고 말했습니다. 터치와 음성인식이 키보드를 대신한다는 것입니다.
구글이나 MS 같은 회사들이 직접 음성인식 기술 개발에 매진한다는 것은 이 기술이 얼마나 많은 가치를 가진 것인지 짐작케 합니다. 그러나 아직은 구글∙MS의 음성인식 기술이 세계 최고는 아니라고 합니다. 세계에서 최고의 기술은 뉘앙스 커뮤니케이션이라는 회사가 보유하고 있다고 합니다.
하지만 MS나 구글, 뉘앙스커뮤니케이션이 한국어 음성인식을 위해 과감한 투자를 할 가능성은 높지 않습니다. 한국어를 사용하는 사람들은 한국인밖에 없고, 한국 시장은 너무 작아서 투자 매력도가 떨어지죠.
결국 한국어 음성인식은 국내 기술로 해결해야할 숙제입니다. 그럼 국내 음성인식 기술은 어디까지 와 있을까요?
1990년대 말이나 2000년대 초반만 해도 국내에도 음성인식 분야에 뛰어든 많은 회사들이 있었습니다. 대부분 벤처기업이었죠. 하지만 음성인식은 하루아침에 가능한 기술이 아닙니다. 지속적인 연구와 그에 걸맞는 투자가 병행돼야 하는 매우 어려운 분야입니다.
그래서 벤처기업이 도전하기에는 매우 어렵습니다. 많은 벤처기업들이 음성인식 분야에 뛰어들었지만, 대부분 실패하고 말았습니다. 물론 아직까지 살아남아 연구개발을 지속하는 회사들이 있습니다. 그러나 그들은 음성인식보다는 다소 쉬운 기술인 음성합성이나 TTS(문자를 음성으로 변환하는 기술) 등에 주력하고 있습니다.
하지만 한국어 음성인식이 엉망은 아닙니다. 이미 음성인식 기술은 우리 일상에 많이 퍼져 있습니다. 최근 현대-기아자동차를 구매한 분은 아실 것입니다. 현대∙기아차의 최신 모델에는 오디오-비디오 내비게이션이 내장돼 있습니다.
일반적인 내비게이션에도 음성인식 기술이 포함된 제품이 출시되고 있습니다. 대표적인 것이 파인디지털의 ‘파인드라이브 보이스’입니다. 운전중에 위험하게 목적지를 손으로 입력하지 않고, 말로 목적지를 입력할 수 있습니다.
또 어제(7일)에는 KTH가 모바일 맛집 검색에 음성인식을 접목했다고 발표했습니다. 스마트폰(옴니아)에 “신사동 TV에 반영된 맛집”이라고 말로 입력하면, 결과를 보여준다고 합니다. KTH는 앞으로 파란 웹 검색에도 이를 반영할 계획인 것 같습니다.
파인디지털이나 KTH의 기술은 한국전자통신연구원(ETRI)에서 이전받은 것입니다. ETRI는 음성인식처럼 많은 투자가 필요한 기술에 대한 연구를 대신하고 기술을 기업에 이전해 주는 서비스를 제공하고 있습니다.
ETRI 음성처리연구팀 이윤근 팀장에 따르면, 현재 우리나라의 음성인식 기술 수준은 세계 최고 수준에서 크게 모자라지 않다고 합니다. 물론 음성인식도 분야마다 상황마다 각기 다르지만 현재 ETRI 기술은 90% 이상의 음성인식률을 보인다고 합니다.
어쩌면 한국어 음성인식 기술이 더 발전하면 제가 기사도 말로 쓰는 시대가 올 지도 모르겠습니다.
‘피자가게 전화번호가 궁금하면 구글이나 야후에 전화하라?’
전화를 통한 음성인식 검색 시장이 인터넷 거대 검색포털들의 새로운 전쟁터가 될 것으로 예상된다고 <월스트리트저널>이 12일 보도했다. 음성인식 검색 서비스가 상용화되면 이용자들은 컴퓨터를 켤 필요없이 전화를 이용해 포털이 제공하는 다양한 정보를 이용할 수 있게 된다. 그동안에는 교환원의 수를 줄여 비용을 낮추거나, 무료로 전화번호 안내사업을 하는 기업들만이 음성인식 기술을 활용하는 데 그쳤다.
시장 진입 서두르는 포털들=구글은 음성인식 기술을 통해 전화번호를 안내하고 연결까지 시켜주는 무료 서비스 ‘구글음성지역검색’을 시험 중이다. 예를 들어, 1-800-GOOG-411(1-800-4664-411)로 전화를 걸어 특정 피자 가게를 말하거나 피자라는 단어만 말하면 구글이 정보를 찾는다. 검색한 피자 가게로 바로 전화연결이 가능하며 가게에 대한 정보를 휴대전화 문자로 받을 수 있다.
마이크로소프트도 지난달 음성인식 검색을 통한 정보 제공업체인 텔미 네트웍스를 8억달러에 인수할 계획이라고 발표했다. 매달 3500만명 이상이 텔미의 서비스를 이용하고 있다. 텔미는 현재 찾는 가게의 이름이나 전화번호뿐 아니라 위치도까지 휴대전화로 보내주는 기술을 시험 중이다. 야후도 곧 이 시장에 뛰어들것으로 보인다고 <월스트리트저널>은 전망했다. 지난 1월 모바일 검색 서비스 ‘원서치’를 개시한 야후는 텔미의 중역 2명을 최근 영입했다. 또 통신사업자인 에이티앤티(AT&T)도 지난해부터 광고를 듣는 대신 무료로 전화번호를 안내받을 수 있는 서비스를 시험 중이다.
모바일 시장을 잡아라=포털들이 음성인식 기술 이용에 나선 것은 새롭게 떠오르는 모바일 검색광고시장을 잡기 위해서다.
미국의 휴대전화 이용자는 2억3500만명에 이른다. 모바일 검색 환경과 목적은 인터넷 검색과는 사뭇 다르다는 게 전문가들의 분석이다. 텔미의 마케팅 부문 부사장 산지브 아그라왈은 “사용자들은 휴대전화로 검색을 할 때 최대한 타이핑 수를 줄이려고 하며, 길찾기나 볼만한 영화 등 당장 선택을 하는 데 필요한 지역정보를 빨리 찾길 원한다”며 “음성은 쉽고 빨라 이런 문제를 해결해준다”고 말했다. 야후의 커넥티드 라이프 부문 수석 부사장 마르코 보에리스도 “모바일 영역에서 음성인식 기술이 매우 중요한 역할을 할 것이라고 믿는다”고 강조했다.
미 경제지 <비즈니스위크>는 시험 중인 구글 서비스가 80억달러 규모의 기존 유료 전화안내 시장을 크게 위협하는 수준이 될 것으로 분석했다. 그러나 교환원을 이용하지 않는 음성인식 검색이 기술적 문제 때문에 제대로 정보를 제공할 수 없을 것이라는 주장도 제기된다고 잡지는 전했다.
첫댓글 에구,,,세상이 휙휙 지나가는군여,, 수고하셧습니다,,