음성기반 감정측정연구의 상용화는 미국, 유럽, 이스라엘 및 일본 등 다양한 지역에서 다양하게 진행되고 있다. 미국에서는 코기토(Cogito)와 손드 헬스 (Sonde Health) 등이 상용화를 진행하고 있다. 코기토는 1999년부터 시작된 MIT 휴먼 다이내믹스 연구실 (Human Dynamics Lab) Alex Pentland 교수팀의 연구를 기반으로 2006년 설립되었다[1]. DARPA의 자금지원으로 인간 커뮤니케이션을 해석하고 심리상태를 자동적으로 분석하는 인공지능 플랫폼을 개발하고 2012년 상용화 서비스를 시작하였다. 통신 및 이동 패턴에 대한 데이터를 자동으로 수집하는 기술로 “다중 당사자 대화의 시각화, 분석 및 관리를 제공하기 위한 시스템 및 방법[2]”을 2017년, “음성 행동 시각화 및 게임화를 위한 방법 및 장치[3]”을 2018년 미국 특허청에 등록하였으며, 음성기반 자살 예측 바이오마커를 개발하고 콜로라도 덴버의 자살예방센터에서 재향군인 문제담당 부서와 협력하여 자살 위험이 높은 참전 용사들과 함께 응용 프로그램을 테스트중이다. 컴패년MX (CompanionMX)이라 명명된 이 소프트웨어는 대화의 톤, 에너지, 말의 유동성 및 참여 수준을 분석하고, 휴대 전화의 가속도계를 사용하여 활동 상태를 파악한다. 이 데이터는 위험 점수를 생성하여 의사에게 보내고, 의사는 이 점수를 보고 필요시 개인에게 전화를 걸어 추가 진료를 결정한다. 코기토는 골드만 삭스 등으로부터 7300만 달러를 투자유치하였다[4]. 미 육군의 지원으로 MIT 링컨 연구소 (Lincoln Laboratory)에서 음성 기반 우울증 진단 기술을 개발하고, “주요 우울 장애에 대한 음운론 기반의 바이오 마커[5]”를 2018년 미국 특허청에 등록하였다. 이 기술은 음성의 미세한 변화를 감지하고 분석하여 몇 초 만에 뇌, 근육 및 호흡기 건강을 측정하여 우울증 등 정신질환을 진단한다[6]. 퓨어테크 (PureTech)에서 이 기술을 라이센스받아 자회사로 손드 헬스를 2015년에 설립하였다. 손드 헬스는 플랫폼 검증의 일환으로 3,000개가 넘는 주제의 음성 데이터를 수집했으며 독점 기술을 알츠하이머, 호흡기 및 심혈관 질환뿐 아니라 다른 건강진단으로 확장하는 연구개발을 하고 있다. 향후 상용화가 가능한 연구로 미국 육군 연구소 (US Army Research Laboratory)와 USC 창조기술 연구소 (Institute for Creative Technologies)의 공동 프로젝트인 우울증 및 PTSD 진단 지원 가상현실 SimSensei 프로젝트[7]의 연구 성과를 2016년에 발표하였다[8]. 이 연구에서는 음성 및 성문 혈류 신호로부터 추출된 스펙트로그램의 특징으로부터 감정 인식을 조사하였다. 스펙트로그램 인코딩은 스택 자동 엔코더에 의해 수행되고 RNN (Recurrent Neural Network)은 기본 감정의 분류에 사용되었다. NYU Dimitra Vergyri교수팀은 AI를 이용한 음성 분석을 이용해 89%의 정확도로 PTSD를 진단하는 연구를 2019년에 발표하였다[9]. 유럽에서는 음성기반 감정측정연구의 상용화를 위하여 130개 이상의 유럽의 기업, 대학 및 연구 기관의 파트너십을 이끌어내는 지식과 혁신 공동체인 EIT Digital이 2017년 키 엘리멘트 (ki elements)를 설립하였다. 음성분석으로 치매진단을 하는 프로젝트의 결과[10]인 Delta 프로그램을 상용화하여 임상의를 지원하기 위한 것이 설립 목적이다. 연구 참여 기관은 활동 리드, 조정, 모바일 및 앱 통합을 담당하는 DFKI GmbH[11], 비디오 분석 및 임상 시험을 담당하는 INRIA[12], 영국식 영어에 대한 현재 시스템의 시행 및 검증을 담당하는 에딘버러 대학교 등으로 구성되었다. 상용화가 가능할 것으로 기대되는 연구로 스페인 Murcia대 Francisco Martínez-Sánchez 교수팀은 알츠하이머병의 음성분석진단 제품 개발 연구결과를 2018년에 발표하였다[13]. 알츠하이머병의 전임상 상태에는 음성 변형이 존재하며, 음성은 신경 퇴행성 과정에 의해 영향을 받는 첫 번째 기능 중 하나이다. 이 연구의 목적은 자동 음성분석으로 알츠하이머병으로 발전할 가능성이 높은 사람들을 선별하는 시제품을 설계, 테스트 및 검증하는 것이다. 이를 위하여 시중에서 판매되는 부품으로 시제품을 개발하였다. 이 제품은 작고 가볍고, 저렴한 휴대용 장치로 거의 모든 곳에서 사용할 수 있으므로 임상 건강 시설의 정상적인 평가 과정에서 사용하기에 적합할 것으로 기대된다. 이스라엘에서는 니메시스 (Nemesysco)와 비욘드 버벌 (Beyond Verbal) 등이 음성기반 감정측정연구의 상용화 서비스를 제공하고 있다. Amir Liberman이 2000년 설립한 이스라엘의 니메시스는 음성 흐름의 다양한 유형과 비정상을 탐지하고 스트레스, 흥분, 혼란 및 기타 관련 정서적인 상태로 분류하는 기술[14]을 개발하고 2003년 미국 특허청에 등록하였다. 감정 다이아몬드 개념을 개발하여 "계층화된 음성분석 (Layered Voice Analysis, LVA)이 감지한 인간의 정서적 반응의 복잡성에 대한 시각화 및 이해를 단순화한 니메스시의 솔루션은 정보 기관, 군대, 경찰 및 금융 정부 기관을 위한 보안 응용 프로그램부터 기업 평가 기관, 투자 하우스, 컨택 센터 및 보험 / 금융 기관에 이르기까지 다양한 분야의 정부 기관 및 기업에서 사용중이다. 일본의 센트릭 (Centric)사는 이 솔루션을 활용하여 사용자 목소리에 관한 데이타를 분석할 수 있는 콜센터 시스템 영업을 2017년부터 시작하였다. 그러나 LVA의 효과에 의문을 제기하는 연구도 제기되고 있는 상황이다[15]. 감정분석용 음성인식 소프트웨어 개발업체인 이스라엘의 Beyond Verbal은 2008년 “음성 신호를 이용한 병리현상 진단방법 및 시스템[16]”을 미국 특허청에 등록하였다. Beyond Verbal은 21년에 걸친 여러 연구 프로젝트의 산물이며, 인간 감정을 분석하기 위해 40개 이상의 언어로 250만개 이상의 감정 태그 음성을 수집하였다. Beyond Verbal은 음성으로 감정분석을 넘어 파킨슨병, 자폐증 등의 신경질환의 진단까지 영역을 확장하였고[17], 심장질환과 같이 비신경학적 질환의 진단까지 영역을 확장하는 연구를 진행하고 있다[18]. 일본에서는 히타치와 엠파트(Empath) 등이 감정분석용 음성인식 연구상용화를 진행하고 있다. 히타치 시스템즈는 PST (Pathologic condition analysis and Sensibility Technology)의 기술을 기반으로 2017년 6월부터 목소리에서 정신건강 상태의 변화를 파악하고, 우울증 등 정신 질환의 조기 발견에 도움이 클라우드형 서비스인 MIMOSYS (Mind Monitoring Systems)의 판매를 시작하였다[19]. MIMOSYS는 음성에서 분노(Ang), 슬픔(Srw), 기쁨(Joy), 평온(Clm)의 네 가지 정서적 요소와 흥분도(Exc)의 5가지 지표를 추출한 후, 기쁨과 슬픔에서 생동감(vivacity)을 평온과 흥분도에서 이완(relaxation)을 각각 계산하고, 이를 기반으로 활력지수(vitality)라는 단기 정신건강지수를 계산한다. 그런 다음 2주 동안 축적된 활력지수에서 정신활동이라는 중기 정신건강지수를 계산한다. 이 서비스는 전화 등에서 녹음한 음성데이터를 사용하는 데, 스마트폰에서 응용 프로그램을 다운로드하고 사용자 ID와 암호만 입력하면 즉시 사용이 가능하다. 도쿄대 Mitsuyoshi Shinji교수가 이 기술을 개발하여 2008년 미국 특허청에 “감정 인식 방법, 감성 생성 방법, 장치 및 소프트웨어[20]”로 등록하였고, 이 기술을 상업화하기 위하여 2012년 PST사를 설립하였다. 일본의 엠파트는 스마트 메디컬 주식회사의 자회사로 2017년 독립하였다. 엠파트가 개발한 음성감정 분석 도구는 사람이 말하는 속도와 피치 톤 등을 AI로 분석하여 기쁨, 평온, 분노, 슬픔의 4 가지 감정과 건강도를 판단한다. 동일본 대지진의 정신 건강 지원, 콜센터, 로봇 등 다양한 분야에서 활용되고 있으며, 아랍 에미리트 연방내무부를 비롯한 세계 40여개국 이상에서 사용중이다. 음성분석 기술을 이용하여 매일 음성을 입력하면 그날의 기분 상태를 측정하는 자신예보 (じぶん予報, My Mood Forecast) 앱을 출시하였다. 이 앱은 자신의 기분의 변화를 의식하여 자기관리를 촉진하고, 관리자는 팀의 기분전환을 일별로 확인할 수 있도록 직장 분위기 관리 정책을 취하는 데 도움을 준다. 상용화가 가능한 연구로 일본 쓰쿠바대 Hirokazu Tachikawa 교수팀은 Mel 주파수 캡스트럼을 이용한 우울증 판별 연구결과를 2018년 1월 Journal of Affective Disorders에 발표하였다[21]. 주요 우울 장애 기준을 충족시킨 36명의 환자와 36명의 건강한 대조군을 대상으로 Mel 주파수 캡스트럼 (mul-frequency cepstrum coefficient, MFCC)를 포함하여 목소리의 음향 특성을 비교하였다. MFCC는 1970 년에 Mermelstein에 의해 도입되었는데[22], 이는 성대 변화를 반영하는 것으로 나타났으며, 음성 인식 분야에서 널리 사용되고 있다. 이 연구에서 우울증 환자의 음성 음향인 MFCC2가 변하고, 이 변화는 2000-3000Hz 의 주파수 대역을 반영한다는 것을 보여주었다. MFCC2의 이러한 변화는 우울증 환자의 목소리가 알아듣기 힘들다는 임상적 인상에 해당하며 우울증 진단에 유용한 바이오 마커가 될 가능성을 제시하였다. 감정분석용 음성인식 연구상용화는 이렇게 다양한 지역에서 다양한 용도로 상용화가 진행되고 있으며, 현재 연구가 활발히 진행되고 있고, 측정 및 분석이 다른 기술에 비하여 경제성 및 효용성이 높아 향후 상용화의 용도는 더욱 확대될 것으로 전망된다. ------------------------------------ [1] Morabito, Vincenzo. "Big Data and Analytics Innovation Practices." Big Data and Analytics. Springer, Cham, 2015. 157-176. [2] “Systems and methods for managing, analyzing, and providing visualizations of multi-party dialogs”, US9661130B (22017-05-23, Application granted), Inventor: Joshua Feast, Ali Azarbayejani, Skyler Place. Current Assignee: Cogito Corp [3] “Method and apparatus for speech behavior visualization and gamification”, US9947342B2 (2018-04-17, Application granted). Inventor: Joshua Feast, Ali Azarbayejani, Skyler Place. Current Assignee: Cogito Corp. [4] Brodwin, Erin, “A new company just launched that can detect depression based on the sound of your voice — here's how it works”, Buinesss Insider (Dec. 18, 2018). [5] “Phonologically-based biomarkers for major depressive disorder), US9936914B2 (2018-04-10, Application granted). Inventor: Thomas F. Quatieri, Jr., Nicolas Malyska, Andrea Carolina Trevino. Current Assignee: Massachusetts Institute of Technology. [6] Huang, Zhaocheng, et al. "Depression Detection from Short Utterances via Diverse Smartphones in Natural Environmental Conditions." Interspeech. 2018. [7] Stratou, Giota, et al. "A demonstration of the perception system in SimSensei, a virtual human application for healthcare interviews." Affective Computing and Intelligent Interaction (ACII), 2015 International Conference on. IEEE, 2015. [8] Ghosh, Sayan, et al. "Representation Learning for Speech Emotion Recognition." INTERSPEECH. 2016. [9] Marmar, Charles R., et al. "Speech‐based markers for posttraumatic stress disorder in US veterans." Depression and anxiety (2019). [10] Tröger, Johannes, et al. "Telephone-based Dementia Screening I: Automated Semantic Verbal Fluency Assessment." Proceedings of the 12th EAI International Conference on Pervasive Computing Technologies for Healthcare. ACM, 2018. [11] DFKI GmbH (Deutsche Forschungszentrum für Künstliche Intelligenz, German Research Center for Artificial Intelligence)는 480여명의 연구원 및 직원과 380명의 대학원생이 연구하는 독일의 비영리 연구기간으로서 인공 지능 분야에서 가장 큰 연구 센터이다. [12] INRIA (institut national de recherche dédié au numérique, French National Institute for computer science and applied mathematics)는 2600명의 직원을 고용하고 있는 프랑스 국립 디지털 연구소이다. [13] Martínez-Sánchez, Francisco, et al. "A Prototype for the Voice Analysis Diagnosis of Alzheimer’s Disease." Journal of Alzheimer's Disease Preprint (2018): 1-9. [14] “Apparatus and methods for detecting emotions”, US6638217B1 (2003-10-28 Application granted), Inventor: Amir Liberman. Current Assignee: Amir Liberman [15] Horvath, Frank, et al. "The accuracy of auditors' and layered voice Analysis (LVA) operators' judgments of truth and deception during police questioning." Journal of forensic sciences 58.2 (2013): 385-392. [16] “Method and system for diagnosing pathological phenomenon using a voice signal”, US7398213B1 (2008-07-08, Application granted), [17] Bonneh, Yoram S., et al. "Abnormal speech spectrum and increased pitch variability in young autistic children." Frontiers in human neuroscience 4 (2011): 237. [18] Maor, Elad, et al. "The sound of atherosclerosis: Voice signal characteristics are independently associated with coronary artery disease." Circulation 134.suppl_1 (2016): A15840-A15840. [19] Hagiwara, Naoki, et al. "Validity of mind monitoring system as a mental health indicator using voice." Advances in Science, Technology and Engineering Systems Journal 2.3 (2017): 338-344. [20] “Emotion recognizing method, sensibility creating method, device, and software”, US7340393B2 (2008-03-04, Application granted), Inventor: Shunji Mitsuyoshi. Current Assignee: AGI Inc [21] Taguchi, Takaya, et al. "Major depressive disorder discrimination using vocal acoustic features." Journal of affective disorders 225 (2018): 214-220. [22] Davis, Steven B., and Paul Mermelstein. "Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences." Readings in speech recognition. 1990. 65-74. |