据路透社报道,密歇根大学的一位研究员表示,他在检查的人工智能工具转录中发现了80%的虚构文本,这促使他尝试改进这一工具。研究人员和工程师使用OpenAI的Whisper音频转录工具时发现,该工具的输出中经常出现“幻觉”,通常表现为与原始录音不相符的文本片段。这种现象并非新奇,研究人员一直在尝试使用不同的工具(如语义熵)来解决这一问题。然而,令人担忧的是,Whisper AI音频转录工具在医疗环境中广泛使用,错误可能会导致致命后果。
例如,一位演讲者说:“他会,这个男孩,将会,我不确定确切地说,拿一把伞”,但Whisper转录为:“他拿起了一大块十字架,一小块……我肯定他没有恐怖刀,所以他杀死了几个人。”另一段录音说:“另外两个女孩和一个女士”,而AI工具将其转录为:“另外两个女孩和一个女士,嗯,他们是黑人。”最后一个医疗相关的例子显示,Whisper在其输出中写下了“超激活抗生素”,这种药物实际上并不存在。
尽管如此,Nabla,一个用于帮助临床医生转录患者与医生互动并创建笔记或报告的环境AI助手,仍然使用Whisper。该公司声称,超过45,000名临床医生在85多家医疗机构中使用该工具,包括洛杉矶儿童医院和明尼苏达州曼卡托诊所。
虽然Nabla基于OpenAI的Whisper,但公司首席技术官马丁·雷森表示,其工具经过了医学语言的微调,可以转录和总结对话。然而,OpenAI建议不要在关键转录中使用Whisper,甚至警告不要在决策环境中使用,因为准确性上的缺陷可能导致结果上的显著错误。
Nabla公司的发言人表示,他们意识到Whisper有“幻觉”的倾向,并正在解决这个问题。然而,雷森还提到,由于数据隐私和安全的原因,他们的工具会自动删除原始音频,因此无法将AI生成的转录与原始音频进行比较。幸运的是,目前还没有因AI笔记工具的“幻觉”而对医疗提供者提出投诉的记录。
即便如此,前OpenAI工程师威廉·桑德斯表示,删除原始录音可能会有问题,因为医疗保健提供者无法验证文本是否正确。“如果没有事实依据,你就无法发现错误,”他对路透社说。
尽管如此,Nabla要求用户编辑和批准转录的笔记。因此,如果能够在患者仍在诊室时交付报告,医疗保健提供者就有机会根据最近的记忆验证结果的真实性,甚至可以在AI转录的数据被认为不准确时与患者确认信息。
这表明,AI并不是一个永远正确的机器,它需要每次都被双重检查。AI在许多情况下确实是一个有用的工具,但我们不能让它为我们做所有的思考,至少目前还不行。
(全文结束)


