生成式AI聊天机器人持续在鉴别诊断方面表现欠佳,马萨诸塞总医院布里格姆研究发现LLMs still fall short in ‘clinical reasoning abilities’: study

环球医讯 / AI与医疗健康来源:www.fiercehealthcare.com美国 - 英语2026-05-15 12:04:25 - 阅读时长3分钟 - 1196字
马萨诸塞总医院布里格姆最新研究显示,尽管生成式AI在医疗领域的应用日益广泛,患者和医疗服务提供者都在使用,但在临床诊断的关键环节——鉴别诊断方面,21种主流大型语言模型(LLMs)表现不佳,超过80%的情况下无法提供适当的鉴别诊断。研究评估了GPT-5、Gemini 3.0 Flash和Grok 4等模型在29个标准化临床案例中的表现,发现这些AI系统在数据完整后能较好确定最终诊断,但在信息不足的病例初期阶段处理能力薄弱,无法像医生那样保持不确定性并迭代完善诊断,这表明现成的LLM尚未准备好用于无需监督的临床级部署,凸显了AI在"医学艺术"方面的局限性。
生成式AI鉴别诊断医疗保健临床推理大型语言模型(LLMs)PrIME-LLM临床案例临床级部署
生成式AI聊天机器人持续在鉴别诊断方面表现欠佳,马萨诸塞总医院布里格姆研究发现

尽管人工智能在医疗保健领域的应用日益增多,患者和医疗服务提供者都在使用,但马萨诸塞总医院布里格姆(Mass General Brigham)的一项新研究发现,公开可用的生成式AI模型通常无法正确应对诊断情境。

该研究于4月13日发表在《JAMA Network Open》期刊上,评估了21种不同通用大型语言模型(LLMs)在2025年1月至12月期间对29个标准化临床案例的处理。模型接收的连续病例转录文本在整个临床推理过程中"保持了临床背景并维持了连续性"。

随后,医学生评估员根据MSD手册对每个阶段的输出进行评分。研究人员还开发了一种新度量标准,称为大型语言模型医学评估比例指数(Proportional Index of Medical Evaluation for LLMs, PrIME-LLM),用于确定五个临床推理领域的准确性。

马萨诸塞总医院布里格姆MESH孵化器研究人员测试的LLM包括GPT-5、Gemini 3.0 Flash和Grok 4。

尽管所有LLM在90%以上的情况下能够得出正确的最终诊断,但研究人员发现,模型"在生成鉴别诊断和处理不确定性方面相对于其他推理阶段表现不佳"。所有模型在超过80%的情况下未能产生适当的鉴别诊断。

"这些模型在数据完整后能够很好地确定最终诊断,但在病例开始阶段,当信息不足时,它们就显得力不从心,"该研究的主要作者、哈佛医学院M.D.-Ph.D学生、MESH研究员Arya Rao在声明中表示。

MESH孵化器执行主任Marc Succi医学博士是该研究的通讯作者之一。Succi在一份声明中表示,尽管这些模型不断改进,但现成的LLM"尚未准备好用于无需监督的临床级部署"。

Succi表示:"鉴别诊断是临床推理的核心,也是AI目前无法复制的'医学艺术'基础。"

这项新研究建立在Succi和MESH团队之前的工作基础上。研究人员曾在2023年8月评估了ChatGPT 3.5的临床能力,发现该聊天机器人在整体临床决策方面的准确率约为72%。

研究人员在当前研究中表示,当提供实验室结果和影像资料以及文本信息时,大多数模型表现出更高的准确性,最新发布的模型表现优于旧版本。

研究指出的局限性包括禁用网络搜索和推理功能、无法完全排除先前接触过标准化病例的情况,以及评估未纳入模型增强功能。

该研究强调了LLM"增强而非取代医生推理"的潜力。

"鉴别诊断与最终诊断之间的一致性差距凸显了这些系统与医生相比处理信息的方式差异,"研究人员写道。"临床医生保留不确定性并迭代式地完善鉴别诊断,而LLM则过早地收敛到单一答案,这一局限性在各代模型中持续存在。"

【全文结束】