在真实世界测试中AI模型诊断能力超越医生 - AI与医疗健康

在真实世界测试中AI模型诊断能力超越医生In real-world test, an AI model did better than doctors at diagnosing patients | Boise State Public Radio

环球医讯 / AI与医疗健康来源：www.boisestatepublicradio.org美国 - 英语2026-05-20 16:47:54 - 阅读时长3分钟 - 1472字

哈佛医学院和贝斯以色列女执事医疗中心在《科学》杂志发表的研究证实，由OpenAI开发的AI推理模型在真实临床环境中诊断患者能力超越内科医生，该模型仅凭电子健康记录就能准确诊断复杂病例，如识别狼疮病史导致的心脏炎症，其表现优于经验丰富的医生且超越GPT-4模型，但专家强调AI仅依赖文本信息无法替代医生综合判断，急诊科测试仅反映部分医疗场景，研究呼吁开展严格前瞻性试验验证AI对临床实践的实际影响，同时澄清该研究比较对象为内科医生而非急诊医生，明确反对用AI取代医生的观点。

一名患者因肺栓塞（一种已移至肺部的血栓）来到医院。在症状最初有所改善后，患者病情开始恶化。医疗团队怀疑药物治疗无效。此时，人工智能介入并提出了自己的理论。该AI已扫描了医疗记录，并怀疑患者有狼疮病史（一种可能导致心脏炎症的自身免疫性疾病），这或许能解释患者真正的病因。事实证明，AI模型的判断是正确的。

根据周四发表在《科学》杂志上的一项研究，这种场景可能在不久的将来成为现实。哈佛医学院和贝斯以色列女执事医疗中心的研究人员发现，由OpenAI开发的AI推理模型在诊断患者和制定治疗方案方面表现出色。该模型的表现与医生相当，且常常优于医生以及早期的AI模型GPT-4。

研究人员对AI模型进行了一系列实验，以测试其临床判断能力——包括曾在波士顿贝斯以色列医院急诊科接受治疗的狼疮患者等实际病例。研究团队评估了AI模型在三个时间点提供准确诊断的能力，从急诊室的分诊阶段，到入院前。

总体而言，AI的表现优于两名经验丰富的医生——而且仅凭电子健康记录和当时医生所能获取的有限信息就做到了这一点。"这是我最重要的结论——它能够处理急诊科杂乱无章的真实世界数据，"贝斯以色列医院的临床研究员、该研究作者之一亚当·罗德曼博士表示。"它能在现实世界中进行诊断。"

研究的其他部分聚焦于发表在《新英格兰医学杂志》上的病例报告和临床案例，以探究AI模型是否能够达到公认的"基准"并解决棘手的诊断问题。"该模型的表现超过了我们庞大的医生基线，"哈佛医学院生物医学信息学助理教授、同时也是研究团队一员的拉杰·曼拉伊表示。

作者强调，AI仅依赖文本信息，而在现实生活中，临床医生在诊断和治疗患者时需要关注许多其他输入，如影像、声音和非语言线索。尽管如此，这项工作展示了该技术在过去几年中取得了多大进展。早期版本的大型语言模型在处理不确定性以及生成可能解释症状的疾病列表（即鉴别诊断）时表现不佳。

"这篇论文完美地总结了技术进步的程度，"未参与此项研究的纽约西奈山医疗系统首席临床官大卫·赖希博士表示。"你拥有的是一种相当精确的技术，可能已准备好投入实际应用，"他表示。"现在的问题是，如何将它引入临床工作流程，以真正改善医疗护理？"

毕竟，得出某个棘手的最终诊断——这正是AI模型擅长的——不一定能反映"真实临床医学"中的情况，赖希表示，在真实临床医学中，"结果更为微妙，也更加多样化。"而且，急诊科只是患者全部医疗护理的一小部分。罗德曼承认，如果研究团队提供的是在医院住了一个月的患者的记录，AI可能不会完成如此"令人印象深刻"的工作。

曼拉伊表示，参与这项新研究的人员均不认为研究结果支持用AI取代医生，"尽管一些公司可能会这么说，并以某种方式利用这些结果。""我认为这确实意味着我们正在见证一项将重塑医学的深刻技术变革，"他补充道。

但研究结果确实表明，AI模型需要以严谨的方式进行测试，理想情况下应通过前瞻性试验来确定该技术最终如何影响临床实践。"设计这些试验是一个极具挑战性的过程，"赖希表示，"但这项研究是一个完美的行动号召。"

更正：2026年5月1日上午11:13 MDT

早先的标题错误地称AI优于急诊医生。事实上，该研究将AI与内科医生进行了比较。

【全文结束】