用机器学习解码一颗“失声”15年的大脑，让它“开口说话”

对于瘫痪患者来说，最大的苦楚来自无法与外界进行沟通。虽然大脑依然活跃并且希望表达，但是无法驱动发声肌肉，会让这类患者的语言机制逐渐蜕化。

来自加州大学旧金山分校神经外科主任Edward Chang正在为失去说话能力的人开发脑机接口技术。他的实验室致力于解码与声道命令相关的大脑信号，并通过神经植入物，将大脑的语言机能，通过计算机输出出来。该项目不仅需要当今最好的神经技术硬件，还需要强大的机器学习模型。

最近，这一技术也取得了长足的进步，让一位因瘫痪“失声”15年的患者利用电脑开始了与外界的交流。Chang也将这一技术过程记录了下来，发布在IEEE上。

一起来看看。

▍让一颗15年没有说话的大脑“开口”

电脑屏幕上显示“你要喝点水吗？”这个问题。下面，三个小点正在闪烁，随后一行字出现：“不，我不渴。”

大脑的活动让沟通发生——值得一提的是，发出这段对话的，是一个超过 15 年没有说话的失声者的大脑。15年前，由于一次中风，他的大脑和身体其他部位就“断联”了，这位患者与外界的沟通从此停摆。他尝试使用许多新技术尝试与外界交流；最近，他使用附在棒球帽上的指针在触摸屏上敲击单词，这种方法有效但速度慢。

最近，这位患者自愿参加了我的研究小组在旧金山加利福尼亚大学的临床试验，希望能探索一种更快的沟通方法。到目前为止，他只在研究期间可以利用大脑产生文字的这套技术系统，但他希望帮助将这项技术开发成像他这样的人可以在日常生活中使用的东西。

在我们的试点研究中，这位志愿者的大脑表面覆盖了一个薄而灵活的电极阵列。电极记录神经信号并将它们发送到语音解码器，语音解码器将信号翻译成他想说的话。这是无法说话的瘫痪者第一次使用神经技术从大脑中“广播”出整个单词，而不仅仅是字母。

该试验是十多年来对支配言语的潜在大脑机制研究的成果，我们为迄今为止所取得的成就感到无比自豪。但我们才刚刚开始。我在 UCSF的实验室正在与世界各地的同事合作，使这项技术足够安全、稳定和可靠，足以满足家庭日常使用。我们还在努力提高系统的性能，因此值得付出努力。

第一个版本的脑机接口给了志愿者一个包含 50 个实用单词的词汇。

▍神经植入物如何工作？

在过去的二十年里，神经植入物技术取得了长足的进步。用于听力的假体植入物发展得最远，其设计与内耳的耳蜗神经接口或直接进入听觉脑干。还有大量关于视网膜和大脑植入物的研究，以及为假手提供触觉的努力。所有这些感官假肢都从外部世界获取信息，并将其转换为电信号，输入大脑的处理中心。

上周，文摘菌还报道了一篇通过植入物帮助嗅觉失灵的患者重新感到味觉的案例。

另一类神经假肢记录大脑的电活动并将其转换为控制外部世界的信号，例如机械臂、视频游戏控制器或计算机屏幕上的光标。BrainGate 联盟等组织已使用最后一种控制方式来让瘫痪的人输入单词——有时一次输入一个字母，有时使用自动完成功能来加快输入速度。

这类通过大脑进行打字的技术并非首创，不过，研究者通常将植入物放置在运动皮层，也即是控制运动的大脑部分。然后通过用户想象某些物理动作来控制在虚拟键盘上移动的光标。另一种方法是我的一些合作者在 2021 年的一篇论文中首创的，它让一个用户想象他正拿着笔在纸上写信，在运动皮层中产生信号，这些信号被翻译成文本。这种方法的打字速度诞生了新的记录，使志愿者每分钟可以写大约 18 个单词。

在我们最新的实验室研究中，我们采取了更高效率的方法。我们不是解码用户移动光标或笔的意图，而是解码控制声道的意图，包括控制喉部（通常称为语音盒）、舌头和嘴唇的数十块肌肉。

对于瘫痪的人来说，看似简单的对话设置是由复杂的神经技术硬件和解码他的大脑信号的机器学习系统实现的。

十多年前，我开始在这个领域工作。作为一名神经外科医生，我经常会看到严重受伤导致无法说话的患者。令我惊讶的是，在许多情况下，脑损伤的位置与我在医学院学到的综合征不匹配，我意识到我们仍然需要学习很多关于大脑如何处理语言的知识。我决定研究语言的潜在神经生物学，如果可能的话，开发一种脑机接口 (BMI) 来恢复失去语言的人的交流。除了我的神经外科背景外，我的团队还拥有语言学、电气工程、计算机科学、生物工程和医学方面的专业知识。

▍肌肉如何帮你说话

语言是使人类与众不同的能力之一。很多其他物种都会发声，但只有人类以无数不同的方式组合了一组声音来表达。这也是一种非常复杂的运动行为——一些专家认为这是人们执行的最复杂的运动行为。说话是通过声道的调制气流的产物；我们通过在喉部声带中产生可听见的振动并改变嘴唇、下巴和舌头的形状来塑造呼吸。

声道的许多肌肉与基于关节的肌肉（例如手臂和腿部的肌肉）完全不同，后者只能以几种规定的方式移动。例如，控制嘴唇的肌肉是括约肌，而构成舌头的肌肉更多地受液压控制——舌头主要由固定体积的肌肉组织组成，因此移动舌头的一部分会改变其形状别处。控制这些肌肉运动的物理原理与二头肌或腘绳肌完全不同。

因为涉及的肌肉如此之多，并且它们每一个都有如此多的自由度，所以基本上有无数种可能的配置。但是当人们说话时，事实证明他们使用的核心动作相对较少（在不同的语言中会有所不同）。例如，当说英语的人发“d”音时，他们会把舌头放在牙齿后面；当他们发出“k”音时，他们的舌根会向上接触到口腔后部的天花板。很少有人意识到说出最简单的词所需的精确、复杂和协调的肌肉动作。

团队成员 David Moses 查看患者脑电波读数 [左屏幕] 和解码系统活动显示 [右屏幕]。

我的研究小组专注于向面部、喉咙、嘴巴和舌头的肌肉发送运动命令的大脑运动皮层部分。这些大脑区域是多任务的：它们管理产生语言的肌肉运动，以及吞咽、微笑和接吻的相同肌肉的运动。

研究这些区域的神经活动需要毫米级的空间分辨率和毫秒级的时间分辨率。从历史上看，无创成像系统已经能够提供其中之一，但不能同时提供两者。当我们开始这项研究时，我们发现关于大脑活动模式如何与最简单的语音组成部分相关联的数据非常少：音素和音节。

在这里，我们要感谢我们的志愿者。在 UCSF 癫痫中心，准备手术的患者通常会通过手术将电极放置在他们的大脑表面上几天，这样我们就可以绘制出癫痫发作时所涉及的区域。在这几天的有线停机期间，许多患者自愿参加神经学研究实验，这些实验利用了他们大脑中的电极记录，让我们能够研究患者说话时的神经活动模式。

所涉及的硬件称为皮层电图(ECoG)。ECoG 系统中的电极不会穿透大脑，而是位于大脑表面。我们的阵列可以包含数百个电极传感器，每个传感器记录数千个神经元。到目前为止，我们已经使用了一个具有 256 个通道的阵列。我们在这些早期研究中的目标是发现人们说简单音节时皮层活动的模式。我们要求志愿者说出特定的声音和单词，同时记录他们的神经模式并跟踪他们的舌头和嘴巴的运动。有时我们通过让他们涂上彩色面部彩绘并使用计算机视觉系统提取运动手势来做到这一点；其他时候，我们使用位于患者颌下的超声波机器对他们移动的舌头进行成像。

该系统从覆盖在患者大脑上的柔性电极阵列开始，以接收来自运动皮层的信号。该阵列专门捕获用于患者声道的运动命令。一个固定在头骨上的端口引导连接到计算机系统的电线，该系统将大脑信号解码并将其翻译成患者想说的话，再将他们的答案展示在显示屏上。

我们使用这些系统将神经模式与声道的运动相匹配。起初，我们有很多关于神经代码的问题。一种可能性是神经活动编码了特定肌肉的方向，大脑本质上就像按下键盘上的键一样打开和关闭这些肌肉，并且通过另一种模式决定肌肉收缩的速度。另一个是神经活动与用于产生某种声音的肌肉收缩的协调模式相对应。（例如，要发出“aaah”的声音，舌头和下巴都需要下垂。）我们发现，有一个表示图可以控制声道的不同部分，以及不同的大脑区域。我们可以将二者结合起来，以产生流利的言语。

▍人工智能在当今神经技术中的效用

我们的工作取决于过去十年人工智能的进步。我们可以将收集到的关于神经活动和语音运动学的数据输入神经网络，然后让机器学习算法在两个数据集之间的关联中找到模式，进而在神经活动和产生的语音之间建立联系，并使用这个模型来产生计算机生成的语音或文本。但是这种技术无法为瘫痪的人训练算法，因为我们缺少一半的数据：我们有神经模式，但没有关于相应的肌肉运动。

我们意识到，使用机器学习的更聪明的方法是将问题分为两个步骤。首先，解码器将来自大脑的信号翻译成声道肌肉的预期运动，然后将这些预期运动翻译成合成语音或文本。

我们称其为仿生方法，因为它复制了生物学的运动模式；在人体中，神经活动直接负责声道的运动，仅间接负责发出的声音。这种方法的一大优势在于训练解码器将肌肉运动转化为声音的第二步。因为声道运动和声音之间的关系更容易获取，我们能够在来自未瘫痪的人的大型数据集上训练解码器。

下一个重大挑战是将技术带给真正可以从中受益的人。

美国国立卫生研究院 (NIH) 正在资助我们的试点试验，该试验于 2021 年开始。我们已经有两名植入了 ECoG 阵列的瘫痪志愿者，我们希望在未来几年招募更多人。主要目标是改善他们的沟通，我们以每分钟字数来衡量绩效。使用全键盘打字的成年人平均每分钟可以输入 40 个单词，最快的打字员可以达到每分钟 80 个单词以上的速度。

▍未来：用声音代替文字输出

我们认为，利用语音系统说话的效果会更好。人类讲话比打字快得多：说英语的人一分钟可以轻松地说出 150 个单词。我们想让瘫痪的人以每分钟 100 字的速度进行交流。为了实现这一目标，我们还有很多工作要做。

植入程序和其他的植入物类似。首先，外科医生切除一小部分颅骨；接下来，将柔性 ECoG 阵列轻轻放置在皮层表面。然后将一个小端口固定在颅骨上，并通过头皮上的一个单独开口离开。我们目前需要这个端口，它连接到外部电线以从电极传输数据，但我们希望将来使系统无线化。

我们考虑使用穿透性微电极，因为它们可以记录较小的神经群体，因此可以提供有关神经活动的更多细节。但目前的硬件在临床应用中不如 ECoG 强大和安全。

另一个考虑因素是，穿透电极通常需要每天重新校准才能将神经信号转化为清晰的命令，而对神经设备的研究表明，设置速度和性能可靠性是让人们使用该技术的关键。这就是为什么我们在创建长期使用的“即插即用”系统时优先考虑稳定性的原因。我们进行了一项研究，观察志愿者的神经信号随时间的变化，发现如果解码器使用多个会话和多天的数据模式，它的性能会更好。在机器学习的术语中，我们说解码器的“权重”被继承，产生了整合的神经信号。

因为我们的瘫痪志愿者在我们观察他们的大脑模式时不能说话，所以我们要求我们的第一位志愿者尝试两种不同的方法。他首先列出了 50 个对日常生活很方便的单词，例如“饿”、“口渴”、“请”、“帮助”和“计算机”。在几个月的 48 次会议中，我们有时要求他想象说出清单上的每个单词，有时要求他开口尝试“说出”这些单词。我们发现尝试说话会产生更清晰的大脑信号，并且足以训练解码算法。然后志愿者可以使用列表中的这些单词来生成他自己选择的句子，例如“不，我不口渴”。

我们现在正在努力扩大词汇量。为了实现这一目标，我们需要继续改进当前的算法和界面，但我相信这些改进将在未来几个月和几年内发生。现在已经建立了原理证明，目标是优化。我们可以专注于让我们的系统更快、更准确，并且——最重要的是——更安全、更可靠。现在事情应该进展得很快。

如果我们能够更好地了解我们试图解码的大脑系统，以及瘫痪如何改变它们的活动，那么最大的突破可能会到来。我们已经意识到，无法向声道肌肉发送指令的瘫痪患者的神经模式与能够发送指令的癫痫患者的神经模式截然不同。我们正在尝试一项雄心勃勃的 BMI 工程壮举，同时还有很多关于潜在神经科学的知识需要了解。我们相信，这一切都会汇聚在一起，让我们的患者交流的能力。

素材来源：

https://spectrum.ieee.org/brain-computer-interface-speech

来源 | 大数据文摘

排版 | 麦子

-----------------END-------------------