为言语障碍者改进语音识别技术
Improving Voice Recognition for People with Speech Disabilities
一项新的研究显示,在对帕金森病患者的言语进行训练的自动语音识别(ASR)系统中,其在转录类似的言语模式时准确率提高了 30%。研究人员从患有不同程度构音障碍(帕金森病患者常见的一种言语障碍)的参与者那里收集了超过 151 小时的录音,并使用这些数据来训练 ASR 系统。
该研究表明,纳入非典型的言语样本显著改善了言语障碍者的语音识别技术。这些发现有助于使神经运动障碍患者更易使用语音控制设备。
关键事实:
- 基于帕金森病患者言语训练的 ASR 系统转录准确率提高了 30%。
- 该研究收集了 151 小时的构音障碍患者的录音。
- 这些发现可能提高言语障碍用户的可访问性。
来源:贝克曼研究所
马克·长谷川 - 约翰逊(Mark Hasegawa-Johnson)在梳理他最新项目的数据时,惊喜地发现了佛罗伦萨蛋的做法。他说,筛选数百小时的录制言语会挖掘出一两个宝藏。
长谷川 - 约翰逊领导着语音可访问性项目,这是伊利诺伊大学厄巴纳 - 香槟分校的一项倡议,旨在使语音识别设备对言语障碍者更有用。
在该项目的首次发表研究中,研究人员让一个自动语音识别器收听与帕金森病相关的言语障碍者 151 小时(将近六天半)的录音。他们的模型转录新的类似录音数据集的准确率比未收听帕金森病患者言语的对照模型高 30%。
她说团队咨询了帕金森病专家和社区成员,以开发与参与者生活相关的内容。来源:神经科学新闻
这项研究发表在《言语、语言和听力研究杂志》上。研究中使用的语音录音可供研究人员、非营利组织和公司免费使用,以改进他们的语音识别设备。
“我们的结果表明,一个大型的非典型言语数据库可以显著改善残疾人士的语音技术,”伊利诺伊州的电气和计算机工程教授、该大学贝克曼高级科学技术研究所的研究员长谷川 - 约翰逊说,该项目就设在该研究所。“我期待看到其他组织将如何使用这些数据来使语音识别设备更具包容性。”
像智能手机和虚拟助手这样的机器使用自动语音识别从发声中获取意义,允许人们排队播放列表、免提口述消息、无缝参与虚拟会议,并与朋友和家人清晰交流。
语音识别技术并非对所有人都有效;特别是那些患有像帕金森病这样的神经运动障碍,可能导致一系列紧张、含糊或不协调的言语模式,统称为构音障碍。
“不幸的是,这意味着许多最需要语音控制设备的人在使用它们时可能会遇到最大的困难,”长谷川 - 约翰逊说。
“我们从现有的研究中知道,如果你根据某人的声音训练一个 ASR,它将开始更准确地理解他们。我们问:你能通过让自动语音识别器接触一小群具有相似言语模式的帕金森病患者来训练它理解构音障碍患者吗?”
长谷川 - 约翰逊和他的同事招募了约 250 名患有不同程度与帕金森病相关的构音障碍的成年人。在加入研究之前,潜在参与者与一位言语语言病理学家会面,后者评估了他们的资格。
“许多长期患有沟通障碍的人,尤其是进行性的障碍,可能会退出日常交流,”团队中的言语语言病理学家克拉里昂·门德斯(Clarion Mendes)说。“他们可能越来越少地分享他们独特的想法、需求和想法,认为他们的交流受到太大影响,无法进行有意义的对话。
“这些正是我们正在寻找的人,”她说。
选定的参与者使用他们的个人电脑和智能手机提交语音录音。按照自己的节奏,并在照顾者的可选帮助下,他们重复了诸如“设置闹钟”等常用的语音指令,背诵了小说中的段落,并对诸如“请解释为四个人做早餐的步骤”等开放式提示发表了意见。
在回答后者时,一位参与者列举了制作佛罗伦萨蛋的步骤——荷兰酱等等——而另一位则务实地建议叫外卖。
“我们从许多参与者那里听说,参与过程不仅令人愉快,而且让他们有信心再次与家人交流,”门德斯说。“这个项目给我们的许多参与者及其亲人带来了希望、兴奋和活力——独特的人类品质。”
她说团队咨询了帕金森病专家和社区成员,以开发与参与者生活相关的内容。提示是具体而自发的:例如,训练语音算法识别药物名称,可能有助于最终用户与他们的药房沟通,而随意的对话启动器模仿日常闲聊的节奏。
“我们告诉参与者:我们知道您可以通过全力以赴使您的言语更清晰,但您可能已经厌倦了为了让别人理解而努力。试着放松并交流,就像您在沙发上与家人聊天一样,”门德斯说。
为了衡量语音算法的收听和学习效果,研究人员将样本分为三组。第一组 190 名参与者,即 151 小时的录音,用于训练模型。
随着其性能的提高,研究人员通过向模型引入第二组较小的录音来确认模型是在认真学习(而不仅仅是记住参与者的回答)。当模型在第二组上达到峰值性能时,研究人员用测试组对其进行挑战。
研究团队成员平均每人手动转录 400 份录音以检查模型的工作。
他们发现,在收听训练集后,ASR 系统转录测试集的录音的单词错误率为 23.69%。相比之下,基于没有帕金森病患者言语样本训练的系统转录测试集的单词错误率为 36.3%——准确率低约 30%。
测试集中几乎所有个人的错误率也都降低了。即使是言语不太典型的帕金森病患者,如语速异常快或口吃,也有适度的改善。
“看到如此显著的益处,我很兴奋,”长谷川 - 约翰逊说。
他补充说,他的热情得到了参与者的反馈支持:
“我与一位对这项技术的未来感兴趣的参与者进行了交谈,”他说。“这就是这个项目的美妙之处:看到人们对他们的智能扬声器和手机能够理解他们的可能性感到多么兴奋。这正是我们努力要做的。”
资金:本新闻稿中描述的研究得到了亚马逊、苹果、谷歌、Meta 和微软的支持;美国国立卫生研究院下属的国家聋哑和其他交流障碍研究所的奖项编号 R13DC003383;以及国家科学基金会的奖项编号 1725729。
内容完全由作者负责,不一定代表美国国立卫生研究院的官方观点。
关于语音可访问性项目
语音可访问性项目是一项研究倡议,旨在使语音识别技术对具有各种不同言语模式和残疾的人更有用。
该项目位于伊利诺伊大学厄巴纳 - 香槟分校的贝克曼高级科学技术研究所内,并于 2022 年秋季宣布。目前,该项目正在招募患有帕金森病、唐氏综合征、脑瘫、肌萎缩侧索硬化症以及中风的英语为母语的美国和加拿大成年人。
该项目得到了亚马逊、苹果、谷歌、Meta 和微软等资助者以及将从这一可访问性倡议中受益的非营利组织前所未有的跨行业支持。
截至 2024 年 6 月底,该项目已与五家资助公司共享了 235,000 个语音样本。
申请加入语音可访问性项目。
通过语音可访问性项目进行研究
语音可访问性项目已经发布了约 170 小时来自 211 名帕金森病患者(包括训练和开发数据集)的语音录音和注释。
该项目正在接受研究人员、公司和非营利组织的提案,他们希望使用这些录音和注释来使技术对所有人都可访问。
提交通过该项目进行研究的提案。
关于此人工智能和语音识别研究新闻
作者:Jenna Kurtzweil
来源:贝克曼研究所
联系:Jenna Kurtzweil - 贝克曼研究所
图片:图片归功于神经科学新闻
原始研究:开放获取。
“支持言语可访问性的社区支持共享基础设施” 作者 Mark Hasegawa-Johnson 等人。《言语、语言和听力研究杂志》
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。