|
Alexa와 Siri, 잘 들어! 기계가 우리의 말을 진정으로 듣도록 가르치기
날짜:
2022년 7월 20일
원천:
버지니아 대학교
요약:
새로운 AI 음성 연구의 의미는 사용자 경험을 넘어 AI를 보다 효율적으로 만들어 업계를 변화시키고 탄소 발자국을 크게 줄일 수 있다는 것입니다.
버지니아 대학교 인지 과학자 Per Sederberg는 집에서 할 수 있는 재미있는 실험을 했습니다. 스마트폰을 꺼내 구글의 검색 엔진과 같은 음성 비서를 사용하여 "문어"라는 단어를 가능한 한 천천히 말하십시오.
당신의 기기는 당신이 방금 말한 것을 되풀이하는 데 어려움을 겪을 것입니다. 무의미한 응답을 제공하거나 "발가락 고름"과 같이 가깝지만 여전히 꺼림칙한 것을 제공할 수 있습니다. 역겨운!
요점은 구글, 딥 마인드, IBM, 마이크로소프트와 같은 거물들이 작업에 전념하는 모든 컴퓨팅 성능에도 불구하고 인간과 다른 동물처럼 청각 신호를 수신할 때 현재의 인공 지능이 여전히 남아 있다는 것입니다. 듣기가 조금 어렵습니다.
그 결과는 코믹하고 약간 실망스러운 것에서부터 언어 문제가 있는 사람들을 완전히 소외시키는 것까지 다양합니다.
그러나 최근 신경과학의 돌파구를 모델로 사용하여 UVA 공동 연구를 통해 기존 AI 신경망을 우리가 말하는 속도에 상관없이 진정으로 우리의 말을 들을 수 있는 기술로 변환할 수 있었습니다.
딥러닝 도구는 SITHCon이라고 하며 입력을 일반화하여 네트워크가 훈련된 것과 다른 속도로 말하는 단어를 이해할 수 있습니다.
이 새로운 기능은 최종 사용자의 경험만 바꾸지는 않습니다. 인공 신경망이 "생각하는" 방식을 변경하여 정보를 보다 효율적으로 처리할 수 있는 잠재력이 있습니다. 그리고 처리 능력을 높이고 데이터 저장을 최소화하며 AI의 막대한 탄소 발자국을 줄이기 위해 끊임없이 노력하는 업계의 모든 것을 바꿀 수 있습니다.
UVA의 인지 과학 프로그램 책임자인 심리학 부교수인 Sederberg는 대학원생 Brandon Jacques와 협력하여 Boston University 및 Indiana University의 연구원들과 함께 이 기술의 작업 데모를 프로그래밍했습니다.
논문의 제1저자인 Jacques는 "우리는 우리가 알고 있는 어떤 모델보다 음성, 특히 스케일링된 음성을 더 잘 해독할 수 있음을 입증했습니다."라고 말했습니다.
Sederberg는 다음과 같이 덧붙였습니다. "우리는 우리 자신을 부적합한 엉터리 집단으로 간주합니다. 우리는 Google, Deep Mind, Apple의 큰 팀이 해결하지 못한 이 문제를 해결했습니다."
획기적인 연구는 화요일 볼티모어에서 열린 기계 학습에 관한 국제 회의(ICML)에서 발표되었습니다.
현재 AI 교육: 청각 과부하
수십 년 동안, 그러나 지난 20년 동안 기업은 복잡한 인공 신경망을 기계에 구축하여 인간의 두뇌가 변화하는 세상을 인식하는 방식을 모방하려고 시도했습니다. 이러한 프로그램은 기본적인 정보 검색과 소비를 촉진하는 데 그치지 않습니다. 그들은 또한 주식 시장을 예측하고 의료 상태를 진단하며 국가 안보 위협에 대한 감시를 전문으로 합니다.
"핵심적으로 우리는 우리 주변 세계에서 의미 있는 패턴을 감지하려고 노력하고 있습니다."라고 Sederberg가 말했습니다. "이러한 패턴은 우리가 어떻게 행동하고 환경과 조화를 이루는지 결정하는 데 도움이 되어 가능한 한 많은 보상을 받을 수 있습니다."
프로그래머는 기술에 대한 초기 영감으로 뇌를 사용하여 "신경망"이라는 이름을 사용했습니다.
Sederberg는 "초기 AI 연구원들은 뉴런의 기본 속성과 뉴런이 서로 연결되는 방식을 취하고 이를 컴퓨터 코드로 재창조했습니다"라고 말했습니다.
그러나 기계에게 언어를 "듣도록" 가르치는 것과 같은 복잡한 문제의 경우 프로그래머는 무의식적으로 두뇌가 실제로 작동하는 방식과 다른 경로를 택했다고 그는 말했습니다. 그들은 신경과학에 대한 이해의 발전을 기반으로 하는 선회에 실패했습니다.
"이러한 대기업이 문제를 처리하는 방식은 계산 자원을 투입하는 것입니다."라고 교수가 설명했습니다. "그래서 그들은 신경망을 더 크게 만듭니다. 원래 뇌에서 영감을 받은 분야가 엔지니어링 문제로 바뀌었습니다."
기본적으로 프로그래머는 다양한 속도로 다른 단어를 사용하여 다양한 음성을 입력하고 역전파라는 프로세스를 통해 대규모 네트워크를 훈련합니다. 프로그래머는 달성하고자 하는 응답을 알고 있으므로 루프에서 지속적으로 정제된 정보를 계속 공급합니다. 그런 다음 AI는 정확한 응답을 가져올 입력 측면에 적절한 가중치를 부여하기 시작합니다. 소리는 텍스트의 사용 가능한 문자가 됩니다.
"당신은 이것을 수백만 번 수행합니다."라고 Sederberg가 말했습니다.
입력 역할을 하는 훈련 데이터 세트가 향상되고 계산 속도가 향상되었지만 프로그래머가 더 큰 뉘앙스와 복잡성을 감지하기 위해 더 많은 레이어를 추가하기 때문에 프로세스는 여전히 이상적이지 않습니다. 소위 "딥" 또는 "컨볼루션" 학습입니다.
오늘날 세계에서는 7,000개 이상의 언어가 사용됩니다. 억양과 방언, 더 깊거나 높은 목소리, 그리고 물론 더 빠르거나 느린 말과 함께 변형이 발생합니다. 경쟁업체가 더 나은 제품을 만들면 모든 단계에서 컴퓨터가 정보를 처리해야 합니다.
이는 환경에 실제적인 영향을 미칩니다. 2019년 한 연구에 따르면 단일 대형 딥 러닝 모델의 훈련에 필요한 에너지로 인한 이산화탄소 배출량은 자동차 5대의 평생 발자국과 같습니다.
3년 후, 데이터 세트와 신경망은 계속해서 성장했습니다.
뇌가 실제로 말을 듣는 방법
보스턴 대학의 고 하워드 아이첸바움(Howard Eichenbaum)은 이 새로운 AI 연구가 구성되는 현상인 "시간 세포"라는 용어를 만들었습니다. 쥐와 인간의 시간 세포를 연구하는 신경과학자들은 뇌가 소리와 같은 시간 기반 입력을 해석할 때 신경 활동에 스파이크가 있음을 보여주었습니다. 해마와 뇌의 다른 부분에 있는 이 개별 뉴런은 특정 간격, 즉 뇌가 관계에서 검토하고 해석하는 데이터 포인트를 포착합니다. 세포는 우리가 정신 지도를 형성하는 데 도움이 되는 소위 "장소 세포"와 함께 있습니다.
시간 세포는 정보가 도착하는 속도와 상관없이 뇌가 소리를 통합적으로 이해하도록 도와줍니다.
"내가 'oooooooc-toooooo-pussssssss'라고 말하면 이전에 누군가가 그 속도로 '문어'라고 말하는 것을 들어 본 적이 없을 것입니다. 그러나 뇌가 해당 정보를 처리하는 방식을 '규모 불변'이라고 하기 때문에 이해할 수 있습니다. Sederberg는 "기본적으로 의미하는 것은 여러분이 그 정보를 듣고 한 규모에서 해당 정보를 해독하는 방법을 배웠다면 해당 정보가 이제 조금 더 빠르거나 조금 더 느리거나 훨씬 더 느리더라도 여전히 얻을 수 있다는 것입니다. 그것."
그는 이 규칙의 주요 예외는 초고속으로 들어오는 정보라고 말했습니다. 해당 데이터가 항상 번역되는 것은 아닙니다. "당신은 약간의 정보를 잃게 됩니다." 그가 말했다.
보스턴 대학의 인지 연구원인 마크 하워드(Marc Howard)의 연구실은 계속해서 시간 세포 발견을 기반으로 하고 있습니다. 20년 이상 Sederberg와 협력해 온 Howard는 인간이 삶의 사건을 이해하는 방법을 연구합니다. 그런 다음 그는 그 이해를 수학으로 변환합니다.
청각 기억을 설명하는 Howard의 방정식에는 타임라인이 포함됩니다. 타임라인은 순차적으로 발사되는 타임 셀을 사용하여 구축됩니다. 비판적으로, 방정식은 사운드가 과거를 향해 이동함에 따라 타임라인이 흐려지고 특정 방식으로 흐려질 것이라고 예측합니다. 사건에 대한 뇌의 기억은 시간이 지남에 따라 덜 정확해지기 때문입니다.
Sederberg는 "따라서 과거의 특정 시간 동안 발생한 일을 코딩하는 특정 발사 패턴이 있으며 정보는 과거로 갈수록 흐릿해지고 흐릿해집니다."라고 말했습니다. "멋진 것은 Marc와 Marc의 연구실을 거쳐가는 박사후 연구원이 이것이 어떻게 보일지 수학적으로 알아냈다는 것입니다. 그런 다음 신경 과학자들은 뇌에서 이에 대한 증거를 찾기 시작했습니다."
시간은 소리에 맥락을 더하며, 이는 우리에게 말한 내용에 의미를 부여하는 부분입니다. Howard는 수학이 깔끔하게 요약된다고 말했습니다.
"뇌의 시간 세포는 그 방정식을 따르는 것 같습니다."라고 Howard는 말했습니다.
UVA는 음성 디코더를 코딩합니다.
약 5년 전 Sederberg와 Howard는 AI 분야가 뇌에서 영감을 받은 그러한 표현의 이점을 얻을 수 있음을 확인했습니다. Howard의 연구실과 함께 작업하고 인디애나 대학의 Zoran Tiganj 및 동료들과 협의하여 Sederberg의 전산 메모리 연구실은 모델을 구축하고 테스트하기 시작했습니다.
Jacques는 약 3년 전에 그 결과 개념 증명을 위한 코딩을 수행하는 데 도움이 되는 큰 돌파구를 마련했습니다. 이 알고리즘은 필요에 따라 압축을 풀 수 있는 압축 형식을 특징으로 합니다. 마치 컴퓨터의 zip 파일이 대용량 파일을 압축하고 저장하는 것과 같습니다. 기기는 나중에 유용할 해상도로 사운드의 "메모리"만 저장하여 저장 공간을 절약합니다.
Sederberg는 "정보가 대수적으로 압축되기 때문에 입력이 스케일링될 때 패턴이 완전히 변경되지 않고 이동합니다."라고 말했습니다.
SITHCon을 위한 AI 교육은 연구원들이 무료로 사용할 수 있는 "임시 컨볼루션 네트워크"라는 기존 리소스와 비교되었습니다. 목표는 네트워크를 훈련된 네트워크에서 특정 속도로만 들을 수 있도록 변환하는 것이었습니다.
프로세스는 기본 언어인 모스 부호로 시작하여 점과 대시를 나타내기 위해 길고 짧은 소리를 사용하며 입력을 위해 1에서 9까지의 숫자를 말하는 오픈 소스 영어 사용자 세트로 진행되었습니다.
결국 더 이상의 훈련은 필요하지 않았다. AI가 통신을 한 속도로 인식하면 화자가 단어를 외우면 속일 수 없습니다.
"우리는 SITHCon이 속도를 높이거나 낮추는 음성으로 일반화할 수 있는 반면, 다른 모델은 훈련에서 볼 수 없었던 속도로 정보를 디코딩하는 데 실패했음을 보여주었습니다."라고 Jacques가 말했습니다.
이제 UVA는 지식을 발전시키기 위해 코드를 무료로 제공하기로 결정했습니다. 팀은 정보가 음성을 번역하는 모든 신경망에 맞게 조정되어야 한다고 말합니다.
Sederberg는 "우리는 개방형 과학을 믿기 때문에 모든 코드를 공개하고 출시할 것입니다."라고 말했습니다. "희망은 기업들이 이것을 보고 매우 흥분하며 우리의 계속되는 작업에 자금을 지원하고 싶다고 말하는 것입니다. 우리는 뇌가 정보를 처리하고 힘과 효율성을 결합하는 근본적인 방법을 활용했지만 우리는 표면만 긁어모았습니다. 이 AI 모델이 무엇을 할 수 있는지."
그러나 그들이 더 나은 쥐덫을 만들었다는 것을 알고 있는 연구자들은 새로운 기술이 어떻게 사용될지 전혀 걱정하고 있습니까?
Sederberg는 모든 기술이 이론에 근거해야 하기 때문에 더 잘 듣는 AI가 윤리적으로 접근할 것이라고 낙관한다고 말했습니다.
그는 "지금 이 회사들은 더 강력하고 유용한 도구를 구축하려고 하는 동안 계산상의 병목 현상에 시달리고 있다"고 말했다. "긍정이 부정적인 것보다 더 크길 바라야 합니다. 생각 과정을 컴퓨터에 더 많이 맡길 수 있다면 좋든 나쁘든 우리를 더 생산적인 세상으로 만들 것입니다."
새 아버지인 자크(Jacques)는 "우리의 작업이 AI의 새로운 방향을 낳을 수 있다고 생각하는 것이 흥분된다"고 말했다.