诊断决策支持系统DXplain与大型语言模型在临床诊断中的比较Traditional diagnostic decision support systems outperform generative AI for diagnosing disease

环球医讯 / AI与医疗健康来源:www.msn.com美国 - 英语2025-05-30 03:00:00 - 阅读时长3分钟 - 1122字
马萨诸塞州综合医院的研究人员对比了诊断决策支持系统DXplain和大型语言模型ChatGPT、Gemini在临床诊断中的表现,发现DXplain稍胜一筹,但结合两者可能带来更好的诊断效果。
健康临床诊断诊断决策支持系统DXplain大型语言模型ChatGPTGemini诊断能力患者病例自动化诊断决策支持
诊断决策支持系统DXplain与大型语言模型在临床诊断中的比较

医学专业人士几十年来一直在使用人工智能(AI)来简化诊断过程,依靠所谓的诊断决策支持系统(DDSSs)。1984年,马萨诸塞州综合医院(MGH)的计算机科学家开发了MGH自己的DDSS,称为DXplain。该系统依赖数千种疾病概况、临床发现和数据点来生成并排名潜在诊断,供临床医生使用。

随着生成式AI和大型语言模型(LLMs)在医学领域的普及和可访问性增加,MGH计算机科学实验室(LCS)的研究人员试图比较经过四十年发展的DXplain与流行的LLMs在诊断能力上的差异。

他们的新研究比较了ChatGPT、Gemini和DXplain在诊断患者病例中的表现,结果显示DXplain的表现略好一些,但LLMs也表现良好。研究人员设想将DXplain与一个LLM结合起来,作为最佳前进方向,因为这将改善两个系统并增强其临床效果。研究结果发表在《JAMA Network Open》上。

“在对大型语言模型的所有兴趣中,很容易忘记第一个在医学领域成功使用的AI系统是像DXplain这样的专家系统,”MGH LCS的共同作者Edward Hoffer博士说。

“这些系统可以增强和扩展临床医生的诊断能力,回忆起医生在紧张时刻可能会忘记的信息,并且不会受到常见的人类推理缺陷的影响。现在,我们认为结合现有诊断系统的强大解释能力和大型语言模型的语言能力将使自动化的诊断决策支持和患者结果更好。”MGH LCS的通讯作者Mitchell Feldman博士说。

研究人员使用36个跨越种族、民族、年龄和性别类别的患者病例测试了DXplain、ChatGPT和Gemini的诊断能力。对于每个病例,这些系统都有机会在有和没有实验室数据的情况下建议潜在的病例诊断。

在有实验室数据的情况下,所有三个系统大多数时候都能列出正确的诊断:DXplain为72%,ChatGPT为64%,Gemini为58%。在没有实验室数据的情况下,DXplain列出了正确诊断的比例为56%,优于ChatGPT(42%)和Gemini(39%),尽管结果没有统计学意义。

研究人员观察到,DDSS和LLMs能够捕捉到其他系统遗漏的某些疾病,这表明结合这两种方法可能有希望。基于这些发现的初步工作显示,LLMs可以用于从叙述性文本中提取临床发现,然后将其输入DDSS——从而协同改进两个系统及其诊断结论。

更多信息: Mitchell J. Feldman等,《专用AI专家系统与基于大型语言模型的生成式AI在临床诊断中的比较》,《JAMA Network Open》(2025)。DOI: 10.1001/jamanetworkopen.2025.12994


(全文结束)

大健康
大健康