Google Assistant가 Siri, Alexa, Bixby 및 Cortana보다 더 많은 언어를 지원하는 이유

Google Assistant, Apple의 Siri, Amazon의 Alexa 및 Microsoft의 Cortana는 세계에서 가장 널리 사용되는 언어 중 일부만 인식합니다. 2018 년 가을까지 삼성의 빅스 비 는 전 세계 6 억 명이 넘는 사람들이 사용하는 독일어, 프랑스어, 이탈리아어 및 스페인어를 지원 했습니다. 그리고 Cortana가 스페인어, 프랑스어 및 포르투갈어에 유창 해지는 데 몇 년 이 걸렸습니다 .
그러나 1 년 전 어시스턴트가 지원하는 언어의 수와 관련하여 이미 경쟁에서 우위를 점했던 Google은 올해 훨씬 앞섰습니다. 2019 년 1 월에 20 개 이상의 새로운 언어 가 추가되고 최근에는 여러 인도 언어가 추가되면서 Google 어시스턴트는 2017 년 8 개 언어 및 14 개 국가에서 80 개 이상의 국가로 40 개 이상의 언어로 주도권을 강화했습니다. Google은 Google 어시스턴트에 정확한 수의 언어를 제공하지 않습니다.) 이는 Siri의 21 개 지원 언어, Alexa 및 Bixby의 7 개 언어 및 Cortana의 8 개 언어와 비교됩니다.
그렇다면 Google 어시스턴트가 왜 앞서 나갔습니까? 당연히 Google의 자연어 처리 (NLP)를 뒷받침하는 기술 중 일부는 영업 비밀을 철저히 지키고 있습니다. 그러나 Mountain View 회사의 공개 연구 결과에 따르면 아마존이나 애플과 같은 라이벌이 아직 언어 적 능력에 맞지 않는 이유에 대해 많은 연구가 이루어졌습니다.
새로운 언어를 지원하는 것은 어렵다
음성 지원에 언어 지원을 추가하는 것은 음성 인식 및 음성 합성에 대한 상당한 연구가 필요한 다단계 프로세스입니다.
대부분의 최신 음성 인식 시스템에는 음소 또는 지각 적으로 다른 소리 단위 (예 : 영어 단어 패드, pat 및 bad의 p, b 및 d) 를 예측하는 심층 신경망이 통합되어 있습니다. 구에서 단어 조합에 대한 확률을 계산하는 수동 조정 통계 모델에 의존하는 이전 기술과 달리 신경망은 멜 스케일 스펙트로 그램이라고하는 오디오 주파수의 표현에서 문자를 도출합니다. 이로 인해 사람의 감독이 필요하지 않고 오류율이 줄어 듭니다.
특히 지난 1 년 동안 음성 인식이 크게 향상되었습니다. A의 종이 , 구글의 연구자들은 고용 맞춤법 교정 29 %의 오류를 줄일 수 있다는 기술을 설명하고, 다른의 연구 들은 언어 모델을 사용하지 않고 최첨단 인식 성능을 달성하기 위해 음파 비주얼에 AI를 적용했다.
병렬 작업에는 SpecAugment가 포함 되는데 , 이는 시각적 분석 데이터 확대를 멜 스케일 스펙트로 그램에 적용하여 단어 오류율이 현저히 낮아집니다. 프로덕션 환경에서 Pixel 4 및 Pixel 4 XL (미국, 영국, 캐나다, 아일랜드, 싱가포르 및 호주)과 같은 기기는 오프라인에서 작동하고 "거의 0"대기 시간으로 음성을 처리하는 개선 된 Google Assistant 영어 모델을 제공합니다. 이전 세대 장치보다 최대 10 배 빠르게 응답합니다.
물론 기본 언어 이해만으로는 충분하지 않습니다. 현지화가 없으면 음성 어시스턴트는 문화적 특질을 파악할 수 없거나 잘못 사용하는 위험을 감수 할 수 없습니다. 다루어야 할 의도의 수에 따라 새 언어에 대한 쿼리 이해 모듈을 작성하는 데 약 30-90 일이 소요됩니다. 심지어 구글과 아마존 등의 시장을 선도하는 스마트 스피커조차 특정 억양을 이해하는 데 어려움을 겪고 있습니다 .
그러나 Google의 창의적인 접근 방식은 이러한 격차를 해소 할 것입니다. 9 월에이 회사의 과학자들은 여러 언어를 번역하고 동시에 "급격한"품질 향상을 시연 하는 음성 파서 를 제안 했으며 10 월에는 250 억 개가 넘는 샘플에 대해 훈련 된 "유니버설"기계 번역 시스템에 대해 자세히 설명했습니다. 103 개 언어를 처리합니다.
이 작업은 의심 할 여지없이 Alexa의 다국어 모드 와 마찬가지로 Google Assistant의 다국어 모드 는 최대 2 개의 언어를 동시에 인식합니다.
음성 합성
연설을 생성하는 것은 이해력만큼이나 어렵습니다.
Google의 Tacotron 2 (스펙트로 그램을 기반으로 음성 합성 모델을 구축함) 및 WaveNet 2 (파형을 기반으로 모델을 구축함)와 같은 최첨단 TTS (텍스트 음성 변환) 시스템은 음성만으로 언어를 어느 정도 학습 할 수 있지만, 기존 시스템은 데이터베이스를 활용합니다 말소리를 내기 위해 서로 다른 언어의 소리 나 몸짓을 사용합니다. 연결은 긴 녹음 세션에서 보완적인 디폰 (전화가 연결된 두 개의 반쪽을 포함하는 음성 단위)과 트라이 폰 (처음에는 이전 전화의 절반이 있고 끝은 후속 전화가있는 전화기)을 캡처해야합니다. 음성 단위의 수는 천을 쉽게 초과 할 수 있습니다.
또 다른 기술인 파라 메트릭 TTS (Parametric TTS)는 수학 모델을 활용하여 사운드를 재현 한 다음 단어와 문장으로 조합합니다. 이러한 사운드를 생성하는 데 필요한 데이터는 매개 변수 (변수)에 저장되며 음성 자체는 출력 신호를 분석하고 합성하는 음성 코덱 (코더-디코더) 인 보코더를 사용하여 생성됩니다.
그럼에도 불구하고 TTS는 언어 이해력보다 해결하기 쉬운 문제입니다. 특히 음성 엔지니어가 처리하는 WaveNet 2와 같은 심층 신경망에서 특히 그렇습니다. 지난 5 월에 시연 된 Translatotron 은 사람의 목소리를 다른 언어로 번역 할 수 있으며 톤과 테너를 유지합니다. 그리고 8 월 구글 AI 연구원 들은 장애가있는 사람들을위한 인공 지능 도구 인 파로 트론 (Parrotron )의 신경 퇴행성 질환과 기술을 갖춘 원어민과 비 원어민 영어 사용자의 오디오 데이터 세트를 사용하여 음성 합성 및 생성의 질을 획기적으로 향상시킬 수 있다고 밝혔다 .
관련 개발 과정에서 한 쌍의 논문에서 Google 연구원은 최근 기계로 생성 된 음성을보다 자연스럽게 만드는 방법을 공개했습니다. Tacotron 공동 제작자 Yuxuan Wang이 공동 저술 한 연구에서, 스트레스 수준과 같은 것들의 전달은 녹음 된 인간 연설의 클립에서 스타일을 삽입함으로써 달성되었습니다. 두 번째 논문에서 설명 된 방법은 분노와 피로로 인한 것과 같은 음성 스타일을 흉내내는 음성 패턴을 식별했습니다.
향후 언어 지원이 향상 될 수있는 방법
분명히 Google 어시스턴트는 어시스턴트 언어에서 가장 발전했습니다. 다른 사람들이 같은 입장을 취하도록하려면 무엇이 필요할까요?
어시스턴트의 언어 지원을 개선하려면 음성 인식과 NLP의 혁신이 필요할 것입니다. 언어 라이브러리, 키워드 또는 사전에 크게 의존하지 않는 "진정한"신경망 스택을 사용하면 문법 구조에서 단어 임베딩 및 단어 임베딩 내의 관계 패턴으로 강조됩니다. 그러면 거의 모든 언어로 음성 인식 시스템을 교육 할 수 있습니다.
아마존은 Alexa와 함께 이것을 향해 나아가고있는 것 같습니다. 관리 회사 연구원하는 줄이려고 결합 인간과 기계 데이터 라벨링 그와 신규 노이즈 차단 AI 및 기계 학습 기술을 사용하여 추가로 15 %의 22 %를 사용하는 방법으로 20 % 인식 flubs에. 별도로, 그들은 새로운 언어에 대한 데이터 요구 사항을 최대 50 %까지 감소시키는 과정에서 한 언어에 대해 훈련 된 언어를 다른 언어에 맞게 조정함으로써“언어”언어 모델에 새로운 접근 방식을 제안했다.
이와 별도로, 방정식의 TTS 측면에서 아마존은 최근 자연스럽고 표현력을 높여서 음질을 향상시키는 Alexa의 신경 TTS 기술을 출시했습니다. 애플 iOS 모바일 운영 체제의 최신 버전 인 iOS 13 은 더 이상 합성되지 않은 음성을보다 자연스럽게 만드는 WaveNet과 같은 TTS 기술을 도입했습니다. 지난 12 월 Microsoft는 단어 건너 뛰기와 같은 오류를 제거하여 현실적인 음성 생성 속도를 높이는 시스템 인 FastSpeech를 시연했습니다 .
이와는 별도로, Microsoft는 최근 개발자들이 대규모로 BERT를 배포 할 수있는 Google의 인기있는 BERT 모델 버전을 오픈 소싱 했습니다. 시애틀 회사의 연구원들이 최신 결과를 달성하기 위해 BERT를 통합 하는 AI 모델 인 MT-DNN (Multi-Task Deep Neural Network) 을 만든 후 Microsoft의 응용 과학자 팀이 제안한 후 언어 생성 작업을위한 기본 최고의 아키텍처 .
의심 할 여지없이, 구글, 애플, 마이크로 소프트, 아마존, 삼성 등은 이미 위에서 설명한 기술 이외의 기술을 사용하여 각각의 음성 어시스턴트에게 새로운 언어를 제공하고 있습니다. 그러나 일부는 먼저 시작했고 다른 일부는 레거시 시스템과 경쟁해야합니다. 그렇기 때문에 모두 같은 언어를 말하기 전에 더 많은 시간이 필요합니다.