据最近的一项学术研究显示,一种广泛用于医疗领域的AI驱动转录工具被发现会在转录中“产生幻觉”,这可能对患者安全构成潜在风险。令人担忧的是,该工具被集成到一种商业医疗转录产品中,该产品会删除原始音频,使医务人员无法验证转录的准确性,据《美联社》周六报道。
这款基于AI的转录工具是OpenAI的Whisper,已被集成到Nabla公司的医疗转录服务中。Nabla公司表示,其服务已被超过30,000名临床医生在70多个组织中使用,处理了大约700万次医疗访问。Whisper还嵌入了微软和甲骨文的云计算平台,并与某些版本的ChatGPT集成。尽管被广泛采用,研究人员现在对其准确性提出了严重关切。
由康奈尔大学、华盛顿大学等机构的研究人员进行的一项研究表明,Whisper在约1.4%的转录中“产生幻觉”,有时会编造整个句子、无意义的短语,甚至是暴力和种族歧视的言论。这项名为《Careless Whisper: Speech-to-Text Hallucination Harms》的研究发现,Whisper经常在医疗对话的静默时刻插入短语,尤其是在转录患有失语症(影响语言和言语模式的疾病)的患者的对话时。在这种情况下,AI有时会编造不相关的短语,如“谢谢您的观看!”这可能是由于其训练数据中包含大量YouTube视频。更令人担忧的是,它还会发明虚构的药物,如“超激活抗生素”,甚至在转录中注入种族评论,《美联社》报道。
Whisper并不是唯一会产生此类错误的AI模型。在另一项研究中,研究人员发现,用于帮助程序员的AI模型也容易产生幻觉。
Whisper的错误是由于AI模型基于其训练数据创建不存在于样本中的模式,从而导致无意义或虚构的输出。这种现象被称为“幻觉”,已在各种AI模型中得到记录。研究人员指出,Whisper的40%幻觉可能会带来有害后果,因为AI在许多情况下误解或曲解了说话者的意图。
尽管Whisper的创建者声称该工具具有“人类水平的鲁棒性和准确性”,但多项研究已证明并非如此。在一项针对公共会议的转录研究中,密歇根大学的一位研究员发现,每10个音频转录中有8个存在幻觉。另一位机器学习工程师报告称,在检查的100多个小时的转录中,约有一半存在幻觉。第三项研究发现,在使用Whisper生成的26,000份转录中,几乎每一份都存在幻觉,《美联社》报道。
微软在其云计算服务中提供Whisper,建议将该工具纳入解决方案的公司“获得适当的法律建议,特别是如果您打算将其用于敏感或高风险应用”。尽管如此,许多医疗机构已经开始采用该工具来转录患者咨询。
Nabla公司承认了幻觉问题,并表示正在努力解决这一问题,《美联社》报道。
在过去的一个月中,Whisper在开源AI平台HuggingFace上的下载量超过了420万次,成为最受欢迎的语音识别模型之一。然而,随着其使用范围的扩大,研究人员警告不要在医疗保健等关键领域采用该工具,因为其错误可能带来严重的后果。
虽然其他AI转录工具也会犯错,但Whisper的幻觉频率及其潜在危害引发了警报。类似的AI模型,如谷歌的AI Overviews,也因其生成荒谬的输出而受到批评,例如建议使用无毒胶水来防止比萨上的奶酪掉落。
随着医疗保健行业越来越多地整合AI解决方案,这些幻觉带来的风险亟需关注,以避免对患者造成有害后果。
(全文结束)


