BY EDWARD CHANG / 29 OCT 2022 / IEEE SPECTRUM
말을 할 수 없는 마비 환자가 신경 기술을 사용하여 뇌에서 글자뿐만 아니라 전체 단어를 방송한 것은 이번이 처음이었습니다.
It was the first time a paralyzed person who couldn’t speak had used neurotechnology to broadcast whole words—not just letters—from the brain.
저희 연구실에서는 좀 더 야심찬 접근 방식을 취했습니다. 커서나 펜을 움직이려는 사용자의 의도를 해독하는 대신 후두(일반적으로 성대라고 함), 혀, 입술을 관장하는 수십 개의 근육으로 구성된 성대를 제어하려는 의도를 해독했습니다.
In my lab’s research, we’ve taken a more ambitious approach. Instead of decoding a user’s intent to move a cursor or a pen, we decode the intent to control the vocal tract, comprising dozens of muscles governing the larynx (commonly called the voice box), the tongue, and the lips.
초기 연구에서 우리의 목표는 사람들이 간단한 음절을 말할 때 피질 활동의 패턴을 발견하는 것이었습니다. 우리는 지원자들에게 특정 소리와 단어를 말하도록 요청하고 신경 패턴을 기록하면서 혀와 입의 움직임을 추적했습니다.
Our goal in those early studies was to discover the patterns of cortical activity when people speak simple syllables. We asked volunteers to say specific sounds and words while we recorded their neural patterns and tracked the movements of their tongues and mouths.
이 시스템은 환자의 뇌에 유연한 전극 어레이를 씌워 운동 피질에서 신호를 포착하는 것으로 시작됩니다. 이 어레이는 특히 환자의 성대를 위한 움직임 명령을 포착합니다. 두개골에 부착된 포트는 컴퓨터 시스템으로 연결되는 전선을 안내하여 뇌 신호를 해독하고 환자가 말하고자 하는 단어로 변환합니다. 그러면 환자의 대답이 디스플레이 화면에 나타납니다.
The system starts with a flexible electrode array that’s draped over the patient’s brain to pick up signals from the motor cortex. The array specifically captures movement commands intended for the patient’s vocal tract. A port affixed to the skull guides the wires that go to the computer system, which decodes the brain signals and translates them into the words that the patient wants to say. His answers then appear on the display screen.Chris Philpot
우리는 이 시스템을 사용하여 신경 패턴을 성대의 움직임과 일치시켰습니다. 처음에는 신경 코드에 대해 궁금한 점이 많았습니다. 한 가지 가능성은 신경 활동이 특정 근육의 방향을 인코딩하고, 뇌가 키보드의 키를 누르는 것처럼 근육을 켜고 끈다는 것이었습니다. 또 다른 아이디어는 코드가 근육 수축의 속도를 결정한다는 것이었습니다. 또 다른 아이디어는 신경 활동이 특정 소리를 내기 위해 사용되는 근육 수축의 조정된 패턴과 일치한다는 것이었습니다. (예를 들어, “아아” 소리를 내기 위해서는 혀와 턱이 모두 아래로 내려가야 합니다.) 우리가 발견한 것은 성대의 여러 부분을 제어하는 표현의 지도가 있으며, 서로 다른 뇌 영역이 조화롭게 결합하여 유창한 말을 만들어낸다는 사실입니다.
We used these systems to match neural patterns to movements of the vocal tract. At first we had a lot of questions about the neural code. One possibility was that neural activity encoded directions for particular muscles, and the brain essentially turned these muscles on and off as if pressing keys on a keyboard. Another idea was that the code determined the velocity of the muscle contractions. Yet another was that neural activity corresponded with coordinated patterns of muscle contractions used to produce a certain sound. (For example, to make the “aaah” sound, both the tongue and the jaw need to drop.) What we discovered was that there is a map of representations that controls different parts of the vocal tract, and that together the different brain areas combine in a coordinated manner to give rise to fluent speech.
오늘날 뉴로테크에서 AI의 역할
우리의 연구는 지난 10년간의 인공 지능의 발전에 달려 있습니다. 신경 활동과 말의 운동학에 대해 수집한 데이터를 신경망에 입력한 다음 머신러닝 알고리즘이 두 데이터 세트 간의 연관성에서 패턴을 찾도록 할 수 있습니다. 신경 활동과 생성된 음성을 연결하고 이 모델을 사용하여 컴퓨터로 생성된 음성이나 텍스트를 생성하는 것이 가능했습니다. 하지만 이 기법은 데이터의 절반이 부족하기 때문에 마비된 사람들을 위한 알고리즘을 훈련할 수 없었습니다: 신경 패턴은 있지만 그에 상응하는 근육 움직임에 대한 정보가 없기 때문입니다.
The role of AI in today’s neurotech
Our work depends on the advances in artificial intelligence over the past decade. We can feed the data we collected about both neural activity and the kinematics of speech into a neural network, then let the machine-learning algorithm find patterns in the associations between the two data sets. It was possible to make connections between neural activity and produced speech, and to use this model to produce computer-generated speech or text. But this technique couldn’t train an algorithm for paralyzed people because we’d lack half of the data: We’d have the neural patterns, but nothing about the corresponding muscle movements.
머신러닝을 사용하는 더 현명한 방법은 문제를 두 단계로 나누는 것이라는 사실을 깨달았습니다. 먼저 디코더가 뇌의 신호를 성대 근육의 의도된 움직임으로 변환한 다음, 의도된 움직임을 합성된 음성이나 텍스트로 변환합니다.
The smarter way to use machine learning, we realized, was to break the problem into two steps. First, the decoder translates signals from the brain into intended movements of muscles in the vocal tract, then it translates those intended movements into synthesized speech or text.