医院使用的AI模型被发现编造患者细节,虚构不存在的药物和性行为AI Model Used By Hospitals Caught Making Up Details About Patients, Inventing Nonexistent Medications and Sexual Acts

环球医讯 / AI与医疗健康来源:www.yahoo.com美国 - 英语2024-10-31 05:00:00 - 阅读时长3分钟 - 1011字
《美联社》调查发现,OpenAI的Whisper AI转录工具在医疗环境中频繁出现幻觉和不准确的情况,可能导致严重后果
AI模型WhisperNabla医疗工作者不准确幻觉误诊有害错误医疗访问患者细节数据安全
医院使用的AI模型被发现编造患者细节,虚构不存在的药物和性行为

在《美联社》的一项新调查中,数十位专家发现,由OpenAI开发的AI转录工具Whisper存在频繁的幻觉和不准确问题,该AI模型经常编造完全无关的文本。更令人担忧的是,尽管OpenAI警告其模型不应用于“高风险领域”,但仍有超过30,000名医疗工作者和40个卫生系统正在使用基于Whisper构建的工具Nabla来转录和总结患者互动,结果几乎肯定是不准确的。

在医疗环境中,这可能会产生“非常严重的后果”,高级研究所教授Alondra Nelson告诉《美联社》。“没有人希望误诊,”Nelson说,“应该有更高的标准。”

Nabla首席技术官Martin Raison告诉《美联社》,该工具经过了医学语言的微调。即便如此,它仍然无法摆脱其基础模型固有的不可靠性。一位与《美联社》交谈的机器学习工程师表示,他在查看的100多个小时的Whisper转录音频中发现了半数的幻觉现象。另一位检查了26,000份转录记录的研究人员称,他几乎在所有记录中都发现了幻觉现象。

据《美联社》引用的一项最近研究显示,即使是对录制良好、短小的音频样本,Whisper的表现也非常糟糕。研究人员警告称,在数百万条录音中,可能会有成千上万次的幻觉现象。

另一个研究团队揭示了这些错误的严重性。他们发现,Whisper会无缘无故地添加种族评论,例如编造一个人的种族,还会发明不存在的药物。在其他情况下,AI会描述没有根据的暴力和性行为。他们甚至发现了令人费解的YouTube用语,如“点赞和订阅”,被插入到转录文本中。总体而言,研究团队得出结论,近40%的这些错误是有害或令人担忧的,因为它们很容易歪曲发言者实际所说的内容。

损害的范围可能非常广泛。据Nabla称,其工具已用于转录约700万次医疗访问,所有这些文件中可能都存在有害的不准确性。令人担忧的是,由于Raison表示该工具“出于数据安全原因”会删除原始音频录音,因此无法验证AI转录是否准确。除非医疗工作者自己保留了录音的副本,否则任何幻觉都将作为正式记录的一部分存在。

“如果你拿走了事实依据,你就无法发现错误,”因抗议而离开OpenAI的研究工程师William Saunders告诉《美联社》。Nabla官员表示,他们意识到Whisper可能会出现幻觉,并正在解决这个问题。然而,仅仅“意识到”问题似乎并没有阻止该公司将实验性的、极其不可靠的技术推向医疗行业。


(全文结束)

大健康
大健康