합성 음성의 도전과 기회 탐색
사용자 지정 음성을 만들기 위한 모델인 Voice Engine의 소규모 미리 보기에서 얻은 교훈을 공유하고 있다.
OpenAI는 안전하고 널리 유익한 AI를 개발하기 위해 최선을 다하고 있다.
오늘 우리는 텍스트 입력과 단일 15초 오디오 샘플을 사용하여 원래 스피커와 매우 유사한
자연스러운 음성을 생성하는 음성 엔진이라는 모델의 소규모 프리뷰에서 얻은 예비 결과를 공유한다.
15초짜리 단일 샘플을 가진 작은 모델로도 감성적이고 사실적인 음성을 만들어낼 수 있다는 점이 주목할 만하다.
2022년 말 Voice Engine을 처음 개발했으며, 이를 사용하여 텍스트 음성 변환 API 뿐만 아니라
ChatGPT 음성 및 소리 내어 읽기와 동시에, 우리는 합성 음성의 오용 가능성으로
더 광범위한 출시에 대해 신중하고 정보에 입각한 접근 방식을 취하고 있다.
우리는 합성 음성의 책임 있는 배치와 사회가 새로운 기능에 적응할 수 있는 방법에 대해 대화를 희망한다.
이러한 대화와 소규모 테스트 결과를 바탕으로 이 기술을 대규모로 배포할지
여부와 방법에 대해 더 많은 정보에 입각한 결정을 내릴 것이다.
Voice Engine의 초기 적용
이 기술의 잠재적 용도를 더 잘 이해하기 위해 작년 말에 신뢰할 수 있는
소규모 파트너 그룹과 함께 비공개로 테스트하기 시작했다.
우리는 이 그룹이 개발한 응용 프로그램에 깊은 인상을 받았다.
이 소규모 배포는 우리의 접근 방식, 보호 장치 및 다양한 산업 분야에서 Voice Engine을
유익하게 사용할 수 있는 방법에 대해 도움이 된다. 몇 가지 초기 예는 다음과 같다.
미리 설정된 음성으로 가능한 것보다 더 넓은 범위의 화자를 대표하는 자연스럽고 감성적인 음성을 통해
독자가 아닌 어린이와 어린이에게 읽기 지원을 제공한다.
배움의 시대의 학업 성공을 위해 노력하는 교육 기술 회사인 는 이를 사용하여
사전 대본이 있는 음성 해설 콘텐츠를 생성해 왔다.
또한 Voice Engine과 GPT-4를 사용하여 학생들과 상호 작용할 수 있는 개인화된 실시간 응답을 생성한다.
이 기술을 통해 Age of Learning은 더 많은 청중을 위한 더 많은 콘텐츠를 만들 수 있었다.
동영상 및 팟캐스트와 같은 콘텐츠를 번역하여 크리에이터와 비즈니스가
전 세계의 더 많은 사람들에게 자신의 목소리로 유창하게 다가갈 수 있도록 한다.
이것의 얼리 어답터 중 하나는 헤이젠은 기업 고객과 협력하여 제품 마케팅에서 판매 데모에 이르기까지
다양한 콘텐츠를 위한 인간과 유사한 맞춤형 아바타를 만드는 AI 시각적 스토리텔링 플랫폼이다.
비디오 번역에 음성 엔진을 사용하여 화자의 음성을 여러 언어로 번역하고 전 세계 청중에게 다가갈 수 있다.
번역에 사용할 때 음성 엔진은 원래 화자의 원어민 억양을 유지한다.
예를 들어 프랑스어 화자의 오디오 샘플로 영어를 생성하면 프랑스어 억양이 있는 음성이 생성된다.
원격 환경에서 필수 서비스 제공을 개선하여 글로벌 커뮤니티에 도달한다.
모유 수유를 하는 엄마를 위한 상담과 같은 다양한 필수 서비스를 제공하기 위해
지역 사회 보건 종사자를 위한 도구를 구축하고 있다.
기술을 개발할 수 있도록 Dimagi는 Voice Engine과 GPT-4를 사용하여 스와힐리어
또는 케냐에서 인기 있는 코드 혼합 언어인 Sheng과 같은 비공식 언어를 포함한
각각 사람들의 기본 언어로 대화형 피드백을 제공한다.
언어에 영향을 미치는 조건을 가진 개인을 위한 치료 응용 프로그램 및
학습이 필요한 사람들을 위한 교육 향상과 같이 비언어적인 사람들을 지원한다.
리복스 AI 대체 커뮤니케이션 앱인 AAC(Augmentative & Alternative Communication)는
장애가 있는 사람들이 의사소통을 할 수 있도록 하는 AAC 장치를 지원한다.
Voice Engine을 사용하여 여러 언어에서 비언어적이고 독특하며, 로봇이 아닌 목소리를 사람들에게 제공할 수 있다.
사용자는 자신을 가장 잘 나타내는 음성을 선택할 수 있으며,
다국어 사용자의 경우 각 음성 언어에서 일관된 음성을 유지할 수 있다.
갑작스럽거나 퇴행성 언어 질환을 앓고 있는 환자를 위해 환자의 목소리 회복을 돕는다.
노먼 프린스 신경 과학 수명 연구소 브라운 대학교 의과대학의 주요 교육 제휴 역할을 하는
비영리 의료 시스템은 임상 맥락에서 AI의 사용을 모색하고 있다.
그들은 언어 장애에 대한 종양학적 또는 신경학적 병인이 있는 개인에게
음성 엔진을 제공하는 프로그램을 시범 운영하고 있다.
음성 엔진에는 짧은 오디오 샘플이 필요하기 때문에 의사는 학교 프로젝트를 위해 녹화된 비디오의
음성을 사용하여 혈관성 뇌종양으로 인해 언어를 잃은 어린 환자의 목소리를 복원할 수 있었다.
Voice Engine을 안전하게 구축
우리는 사람들의 목소리와 유사한 음성을 생성하는 것이 심각한 위험을 수반한다는 것을 알고 있으며,
이는 특히 선거가 있는 해에 가장 중요한 문제이다.
우리는 정부, 미디어, 엔터테인먼트, 교육, 시민 사회 등 다양한 분야의 미국 및
국제 파트너와 협력하여 그들의 피드백을 반영하고 있다.
Voice Engine을 시험하는 파트너는 사용 정책동의나 법적 권리 없이 다른 개인이나 단체를 사칭하는 것을 금지한다.
또한, 이러한 파트너와의 약관은 원래 발언자의 명시적이고 정보에 입각한 동의를 요구하며,
개발자가 개별 사용자가 자신의 목소리를 만들 수 있는 방법을 구축하는 것을 허용하지 않는다.
파트너는 청중에게 자신이 듣고 있는 목소리가 AI에서 생성되었음을 명확하게 밝혀야 한다.
마지막으로, Voice Engine에서 생성된 모든 오디오의 출처를 추적하기 위한
워터마크와 사용 방식에 대한 사전 모니터링을 포함한 일련의 안전 조치를 구현했다.
합성 음성 기술의 광범위한 배포에는 원래 화자가 고의로 서비스에 음성을 추가하고 있는지
확인하는 음성 인증 환경과 저명한 인물과 너무 유사한 음성을 감지하고,
생성하지 못하도록 하는 금지 음성 목록이 수반되어야 한다고 생각한다.
향후 전망
Voice Engine은 기술 경계를 이해하고 AI로 무엇이 가능 해지는지 공개적으로 공유하기 위한 노력의 연장선상에 있다.
우리는 AI 안전에 대한 접근 방식과 우리의 자발적 약속과 현재 이 기술을 미리 보기로 선택했지만 널리 배포하지는 않았다.
이번 보이스 엔진 프리뷰가 보이스 엔진의 잠재력을 강조하는 동시에 더욱 설득력 있는
생성 모델이 야기하는 도전에 맞서 사회적 회복력을 강화해야 할 필요성에 동기를 부여하기를 바란다.
특히, 다음과 같은 단계를 수행하는 것이 좋다.
은행 계좌 및 기타 민감한 정보에 접근하기 위한 보안 조치로 음성 기반 인증을 단계적으로 폐지.
AI에서 개인의 목소리 사용을 보호하기 위한 정책 탐색.
기만적인 AI 콘텐츠의 가능성을 포함하여 AI 기술의 기능과 한계를 이해하도록 대중을 교육한다.
시청각 콘텐츠의 출처를 추적하는 기술의 개발 및 채택을 가속화하여 실제 사람 또는 AI와 상호 작용할 때 항상 명확하다.
전 세계 사람들이 이 기술이 어디로 향하고 있는지,
궁극적으로 우리 스스로 널리 배포하든 그렇지 않든 이해하는 것이 중요하다.
우리는 정책 입안자, 연구자, 개발자 및 창작자들과 함께
합성 음성의 도전과 기회에 관련된 대화에 계속 참여하기를 기대한다.
----------------------------------------------------------------------------------------------------------------------
여기에 관련된 변형된 AI 음성 샘플 테스트 몇 가지를 들어봤는데 정말 매우 너무 놀랐고,
수 십년이 지난 다음에 AI가 어느 정도까지 발전할지 생각하면,,
이건 상상 조차 어렵습니다.