AI模型产生幻觉——即自信地编造信息——这一倾向并不足以使其被排除在医疗环境中的使用。因此,研究人员着手列举这些风险,并制定一个计划,在允许医疗专业人员继续咨询不可靠的软件助手的同时,确保不造成伤害。
来自麻省理工学院(MIT)、哈佛医学院、华盛顿大学、卡内基梅隆大学、首尔国立大学医院、谷歌、哥伦比亚大学和约翰霍普金斯大学等知名学术和医疗机构的不少于25位技术和医学专家,共同对主流基础模型中的医疗幻觉进行了分类和分析,旨在为医疗环境中使用AI制定更好的规则。
他们的工作成果发表在一篇题为《基础模型中的医疗幻觉及其对医疗的影响》的预印本论文中,并附有一个支持性的GitHub仓库。他们认为需要开发出危害缓解策略。
这些幻觉使用特定领域的术语,并且看起来逻辑连贯,这使得它们难以被识别。
作者从以下前提出发:像Anthropic、谷歌、Meta和OpenAI这样的公司开发的基础模型——这些巨大的神经网络训练了大量的数据——提供了“显著的机会,从增强临床决策支持到改变医学研究并提高医疗质量和安全性”。
鉴于这一出发点——以及至少有一位研究人员与主要AI供应商有关联——显然不会考虑彻底禁止AI的方案。
相反,作者着手创建了一个医疗幻觉的分类体系,这与在不太重要的上下文中的错误AI答案有所不同。
“医疗幻觉与通用目的的同类相比有两个明显的特点,”作者解释道。“首先,它们出现在诊断推理、治疗规划或实验室结果解读等专门任务中,这些任务中的不准确会立即影响患者护理。其次,这些幻觉经常使用特定领域的术语,并且看起来逻辑连贯,这使得它们在没有专家审查的情况下很难被识别。”
该分类体系在论文中以饼图形式呈现,包括:事实错误;过时的参考;虚假关联:伪造的来源或指南;以及不完整的推理链。
作者还研究了这种幻觉出现的频率。在各种不同的测试中,研究人员评估了五个通用大语言模型(o1, gemini-2.0-flash-exp, gpt-4o, gemini-1.5-flash, 和 claude-3.5 sonnet)在三个目标任务上的临床推理能力:按时间顺序排列事件;实验室数据解读;以及鉴别诊断生成,即评估症状并探索可能的诊断。模型的评分范围从无风险(0)到灾难性(5)。
结果并不理想,尽管有些模型表现得更好:“诊断预测在所有模型中始终表现出最低的整体幻觉率,范围从0%到22%。”论文指出。“相比之下,要求精确事实回忆和时间整合的任务——按时间顺序排列(0.25 - 24.6%)和实验室数据理解(0.25 - 18.7%)——呈现出显著更高的幻觉频率。”
作者表示,这些发现挑战了诊断任务需要复杂推理而LLM难以处理的假设。
“相反,我们的结果表明,当前的LLM架构可能在医学病例报告中的模式识别和诊断推理方面具有相对优势,但在从临床文本中准确提取和综合详细的事实和时间信息的基本任务方面存在困难,”他们解释道。
在通用模型中,Anthropic的Claude-3.5和OpenAI的o1在三项测试任务中表现出最低的幻觉率。研究人员称,这些发现表明高性能模型在诊断推理方面显示出潜力。但由于持续出现的重大(2级)或显著(3级)风险错误,即使是最优秀的模型也必须在临床任务中谨慎监控,并且需要有人类参与。
研究人员还对75名医疗从业者进行了关于他们使用AI工具情况的调查。似乎已经无法回头:“40人每天使用这些工具,9人每周使用几次,13人每月使用几次,13人很少或从未使用。”论文指出,30名受访者表示高度信任AI模型的输出。
考虑到“91.8%的人在临床实践中遇到过医疗幻觉”,并且“84.7%的人认为他们经历的幻觉可能会影响患者的健康”,40%的受访者缺乏怀疑态度令人惊讶。
我们不禁想知道,新入职的医务人员是否会获得与这些产生幻觉的AI模型相匹配的容错率。
研究人员总结说,迫切需要制定法规,并明确法律责任。
“如果AI模型输出误导性的诊断信息,那么问题就来了:责任应该归咎于AI开发者,因为培训数据可能存在不足;还是归咎于过度依赖不透明输出的医疗服务提供者;抑或是归咎于监管不力的机构,”作者说。
鉴于特朗普政府撤销了拜登时代的AI安全规定,研究人员呼吁“制定伦理准则和强有力的框架,以确保患者安全和问责制”可能不会在联邦层面得到回应。®
(全文结束)


