医院使用的AI模型被发现编造患者细节，虚构不存在的药物和性行为 - AI与医疗健康

医院使用的AI模型被发现编造患者细节，虚构不存在的药物和性行为AI Model Used By Hospitals Caught Making Up Details About Patients, Inventing Nonexistent Medications and Sexual Acts

环球医讯 / AI与医疗健康来源：www.yahoo.com美国 - 英语2024-10-31 05:00:00 - 阅读时长3分钟 - 1011字

《美联社》调查发现，OpenAI的Whisper AI转录工具在医疗环境中频繁出现幻觉和不准确的情况，可能导致严重后果

在《美联社》的一项新调查中，数十位专家发现，由OpenAI开发的AI转录工具Whisper存在频繁的幻觉和不准确问题，该AI模型经常编造完全无关的文本。更令人担忧的是，尽管OpenAI警告其模型不应用于“高风险领域”，但仍有超过30,000名医疗工作者和40个卫生系统正在使用基于Whisper构建的工具Nabla来转录和总结患者互动，结果几乎肯定是不准确的。

在医疗环境中，这可能会产生“非常严重的后果”，高级研究所教授Alondra Nelson告诉《美联社》。“没有人希望误诊，”Nelson说，“应该有更高的标准。”

Nabla首席技术官Martin Raison告诉《美联社》，该工具经过了医学语言的微调。即便如此，它仍然无法摆脱其基础模型固有的不可靠性。一位与《美联社》交谈的机器学习工程师表示，他在查看的100多个小时的Whisper转录音频中发现了半数的幻觉现象。另一位检查了26,000份转录记录的研究人员称，他几乎在所有记录中都发现了幻觉现象。

据《美联社》引用的一项最近研究显示，即使是对录制良好、短小的音频样本，Whisper的表现也非常糟糕。研究人员警告称，在数百万条录音中，可能会有成千上万次的幻觉现象。

另一个研究团队揭示了这些错误的严重性。他们发现，Whisper会无缘无故地添加种族评论，例如编造一个人的种族，还会发明不存在的药物。在其他情况下，AI会描述没有根据的暴力和性行为。他们甚至发现了令人费解的YouTube用语，如“点赞和订阅”，被插入到转录文本中。总体而言，研究团队得出结论，近40%的这些错误是有害或令人担忧的，因为它们很容易歪曲发言者实际所说的内容。

损害的范围可能非常广泛。据Nabla称，其工具已用于转录约700万次医疗访问，所有这些文件中可能都存在有害的不准确性。令人担忧的是，由于Raison表示该工具“出于数据安全原因”会删除原始音频录音，因此无法验证AI转录是否准确。除非医疗工作者自己保留了录音的副本，否则任何幻觉都将作为正式记录的一部分存在。

“如果你拿走了事实依据，你就无法发现错误，”因抗议而离开OpenAI的研究工程师William Saunders告诉《美联社》。Nabla官员表示，他们意识到Whisper可能会出现幻觉，并正在解决这个问题。然而，仅仅“意识到”问题似乎并没有阻止该公司将实验性的、极其不可靠的技术推向医疗行业。

(全文结束)