**加州大学伯克利分校——**对于全球数百万因中风、ALS或其它神经系统损伤而失去说话能力的人来说,一种革命性的技术正在打破沟通障碍。研究人员开发了一个潜在的突破性系统,该系统可以实时将大脑活动直接转化为语音,使严重瘫痪的人再次自然地进行交流。
这项新技术超越了之前的技术,那些技术在对话中造成了不舒服的停顿。新的“脑-语音神经假体”几乎与用户的说话意图同步工作。该系统以80毫秒的小片段处理大脑信号,产生随用户思考形成单词而自然流动的语音。
“我们的流式方法为神经假体带来了类似Alexa和Siri等设备的快速语音解码能力,”加州大学伯克利分校电气工程与计算机科学教授Gopala Anumanchipalli表示。“使用类似的算法,我们发现可以解码神经数据,并首次实现近乎同步的声音流。结果是更自然、流畅的语音合成。”
通信的第二次机会
研究集中在一位47岁的女性身上,称为“Ann”,她在研究前18年经历了一次脑干中风。这次毁灭性的事件使她四肢瘫痪且无法协调说话肌肉,尽管她具有完全的认知能力来理解和形成语言。多年来,她通过透明字母板和眼动追踪设备以每分钟2.6个单词的痛苦速度进行交流,新技术使她有机会以接近正常对话的速度再次说话。
“这项新技术对改善严重瘫痪影响说话的人的生活质量具有巨大潜力,”神经外科医生Edward Chang表示。Chang领导了UCSF的一项临床试验,旨在使用高密度电极阵列从大脑表面直接记录神经活动来开发语音神经假体技术。“令人兴奋的是,最新的AI进展正在大大加速BCI(脑机接口)在实际现实生活中的应用。”
该技术通过一个253通道电极阵列实现,该阵列植入她的大脑表面,覆盖控制说话肌肉的大脑区域。当她试图无声地“模仿”单词而不发出声音时,系统捕获并解释神经信号,将其实时转换为可听语音和文本。
“我们实际上是在拦截信号,在思想被转化为发音的过程中,在运动控制的中间,”联合首席作者、加州大学伯克利分校电气工程与计算机科学博士生Cheol Jun Cho解释说。“因此,我们解码的是在思想发生之后,在我们决定说什么、用什么词以及如何移动发声肌肉之后。”
打破延迟障碍
以前的技术在尝试说话期间收集所有神经数据,然后才生成任何内容,导致一句句子大约需要8秒的延迟。新系统以小增量处理信息,使语音几乎在大脑中构思出来时就出现——就像我们自然说话一样。
“我们可以看到相对于那个意图信号,我们在1秒内就能得到第一个声音,”Anumanchipalli说。“并且该设备可以连续解码语音,因此Ann可以不间断地继续说话。”
当测试一组专注于护理需求的50个常用短语时,该系统达到了每分钟90.9个单词的速度。在更大的1,024个词汇表中,它仍能管理每分钟47.5个单词。作为参考,自然对话通常以每分钟120-150个单词的速度进行,表明这项技术正接近日常互动的实际速度。
对于较小的短语集,约88%的单词被正确解释。即使在较大的词汇表中错误率增加,该系统仍然提供了有意义的交流,速度足以进行可行的对话。
为了确保系统不仅仅是记忆熟悉的短语,研究人员用完全陌生的词汇进行了测试——例如北约音标字母中的“Alpha”、“Bravo”和“Charlie”。系统在这些新单词上实现了46%的准确率,证明它确实在学习语音产生的基本要素,而不仅仅是识别模式。
“我们想看看我们是否可以推广到未见过的单词,并真正解码Ann的说话模式,”他说。“我们发现我们的模型在这方面做得很好,这表明它确实在学习声音或语音的基本构建块。”
超越单一解决方案
研究不仅限于单一实现。团队成功地将他们的方法应用于其他记录方法,包括来自另一位瘫痪者的单单位记录和测量健康说话者模仿无声说话时肌肉活动的表面电极。
“通过在其他无声说话数据集上展示准确的大脑-语音合成,我们展示了这种技术不仅限于一种特定类型的设备,”博士生兼联合首席作者Kaylo Littlejohn解释说。“只要有一个良好的信号,同样的算法可以用于不同的模态。”
根据Anumanchipalli的说法,研究报告的参与者Ann报告说,“流式合成是一种更自愿控制的模式。”“听到自己的声音几乎实时地增加了她的身体感。”
未来的工作将集中在向输出语音添加表现力,捕捉自然说话过程中发生的音调和强调的变化。“这是正在进行的工作,试图看看我们到底可以从大脑活动中解码出这些副语言特征,”Littlejohn说。“这是一个长期存在的问题,甚至在经典的音频合成领域也是如此,这将填补到完全自然主义的空白。”
恢复人际联系
这项脑-语音技术标志着在恢复严重瘫痪者的自然交流能力方面取得了重大进展。虽然以前的接口在解码预期语音方面显示出希望,但它们在速度、词汇范围和对话流畅性方面遇到了困难。这种新方法的流式特性直接解决了这些问题。
对于数百万因中风、创伤性脑损伤、ALS和其他神经退行性疾病而受损说话能力的人来说,这项研究提供了切实的希望。愿景是一个无缝运行的语音神经假体,使人们能够像没有残疾的人一样轻松流畅地加入对话。
尽管尚未准备好广泛临床应用,研究人员将继续改进他们的方法,致力于提高准确性、进一步降低延迟,并开发适合日常使用的系统。如果开发过程按计划进行,该技术将使我们更接近确保没有人因瘫痪而永远沉默的目标。
(全文结束)


