美国研究人员发现,将大型语言模型(LLM)整合到医疗实践中并不会显著提高医生的诊断推理能力,相比传统资源而言。这项由斯坦福大学和其他机构的研究团队进行并在《JAMA Network Open》上发表的研究揭示了在临床环境中引入人工智能(AI)的复杂性,表明仅仅拥有先进技术并不足以改善医疗结果。
研究概览
该试验涉及50名接受过家庭医学、内科和急诊医学培训的医生。参与者被分为两组:一组可以使用大型语言模型,特别是ChatGPT Plus(GPT-4),以及传统的诊断资源,而另一组则仅依赖传统工具。他们被要求在60分钟的时间内审查临床案例并做出诊断决定。主要评估指标是通过一个工具来衡量的诊断表现,该工具评估了鉴别诊断的准确性、支持和反对因素的适当性以及下一步的诊断步骤。次要评估指标包括每例病例所需时间和最终诊断的准确性。
主要发现
结果令人惊讶。LLM组的诊断推理中位数得分为76%,而传统资源组得分为74%。这2个百分点的差异并不具有统计学意义,表明LLM并未在诊断推理方面提供实质性的优势。此外,LLM组每例病例所花费的时间略低,但这一差异也不显著。
有趣的是,当独立评估LLM时,它在两个医生组中均表现出色,达到了92%的中位数得分。这一发现引发了关于AI在医疗决策中的角色以及在有效使用时LLM如何增强诊断过程的重要问题。
AI在医学中的局限性
研究突显了一个重要观点:虽然LLM可以处理大量信息并生成类似人类的响应,但它们并不能替代经验丰富的医生在患者护理中带来的细致理解和临床判断。研究人员指出,仅仅提供AI工具并不能保证性能的提升;有效的整合需要培训和全面了解如何利用这些技术。试验的作者表示,需要进一步发展人机交互技术,以最大化AI在临床环境中的潜力。他们建议,通过培训医生掌握有效的提示技巧,可以增强他们与LLM的互动,最终导致更好的诊断结果。
人类专业知识
诊断错误仍然是医疗保健中的一个重要挑战,导致患者伤害和医疗成本增加。研究表明,提高诊断表现需要多方面的方法,结合先进技术和人类专业知识。尽管AI可以帮助收集和分析数据,但解释和最终的临床决策仍需依赖医生的判断。试验的结果与先前的研究一致,即AI可以增强但不能替代医学中的人类决策。
对医学教育的影响
这项研究的影响不仅限于临床实践,还延伸到医学教育。随着LLM和其他AI工具的普及,医学培训项目必须适应将这些技术纳入课程。教育者应关注教授未来的医生如何将AI整合到他们的诊断过程中,同时保持坚实的临床推理基础。此外,研究倡导医疗专业人员在实践中看待技术的方式发生转变。医生不应将AI视为独立的解决方案,而应将其视为增强其能力的补充工具。这种视角促进了人类专业知识和机器智能之间的协作,最终旨在改善患者护理。
结论
AI本身不会让你成为更好的医生。将AI整合到临床实践中必须伴随着严格的培训、有效的人机交互策略以及对患者护理标准的承诺。研究指出,通过培养AI与人类专业知识之间的关系,医学界可以朝着一个未来努力,在这个未来中,技术增强了而不是削弱了医学的艺术。
(全文结束)


