一项由斯坦福大学研究人员进行的新研究揭示了大型语言模型(一种形式的人工智能)在提高医疗诊断准确性和临床推理方面的未开发潜力。研究人员向流行的模型ChatGPT-4和50名医生展示了基于真实患者的病例,并要求他们做出诊断。其中一半的医生使用了传统的诊断资源,如医学手册和互联网搜索,而另一半则有ChatGPT作为诊断辅助工具。总体而言,ChatGPT单独表现非常出色,中位得分约为92分,相当于A级。非AI组和AI辅助组的医生分别获得了74分和76分的中位得分,这意味着医生没有表达出同样全面的诊断相关推理步骤。
阅读完整研究,《大型语言模型对诊断推理的影响:随机临床案例研究》
这一反直觉的发现表明,医生们有更多机会更好地学习和利用这些AI工具。学者们认为,通过有效的培训和临床整合,大型语言模型在医疗环境中的应用最终将使患者受益。“我们的研究表明,ChatGPT在医疗诊断方面具有巨大潜力,因此我们惊讶地发现,尽管医生可以使用ChatGPT,但这并没有显著改善临床推理,”该研究的共同主要作者、斯坦福医学院博士后学者兼斯坦福临床卓越研究中心研究员Ethan Goh说。“这些发现表明,在临床实践和更广泛的医疗保健中,医生与AI的合作存在进一步改进的机会。”
“一旦人类觉得自己得到了诊断,他们就不会‘浪费时间和空间’来解释更多的步骤,”该论文的高级作者、斯坦福医学院助理教授Jonathan H. Chen补充道。“还有一种真实的现象是,人类专家往往无法解释自己为什么做出了正确的决定。”
该研究最近发表在《JAMA Network Open》上,并被美国医学信息学协会2024年11月的研讨会接受。
提供诊断
自2022年11月旧金山的OpenAI推出ChatGPT以来,大型语言模型(LLM)的影响力迅速提升。LLM是经过大量包含自然人类语言的数据训练的程序,如网站和书籍。基于这种训练,LLM可以响应自然语言查询输入,生成流畅、连贯的答案输出。
目前,LLM已经在金融和内容生成等多个领域取得了显著进展,医疗保健领域也被预期将成为主要采用者之一。最被认可的应用之一,Goh表示,是减少现代医学中仍然常见且有害的诊断错误。迄今为止,许多研究已经证明了LLM在处理多项选择和开放式医学推理考试问题方面的能力,但这些AI工具在教育之外的实际临床实践中的应用尚未得到充分研究。
通过他们的新多站点研究,Goh和他的同事们试图填补这一空白。研究人员从斯坦福大学、贝丝以色列女执事医疗中心和弗吉尼亚大学招募了50名医生。大多数医生专攻内科,但也包括急诊医学和家庭医学。在一个小时内,参与的医生审查了多达六个复杂的临床案例,这些案例出现在诊断推理测试中,并基于实际患者病史、体格检查和实验室结果。针对这些临床案例,医生参与者提供了他们认为可能的诊断,以及额外的患者评估步骤。就像在正常的医疗环境中一样,参与者依赖于自己的医学知识和经验,以及提供给他们的参考材料。在被随机分配使用ChatGPT进行临床评估的参与者中,约有三分之一报告称他们经常或偶尔使用过该工具。
基于ChatGPT单独使用与有访问权限的医生之间的不同结果,许多ChatGPT访问组的医生不同意或不考虑模型的诊断预测。尽管ChatGPT的访问并未提高医生的诊断准确性,但有访问权限的医生平均比没有ChatGPT作为辅助工具的医生完成个别病例评估的时间快了一分钟以上。这些发现——需要通过进一步针对这一节省时间方面进行研究验证——表明,在专业采纳的早期阶段,ChatGPT和类似的工具至少可以在时间受限的临床环境中提高诊断周转时间。“ChatGPT可以帮助医生提高效率,”Goh说。“仅这些时间节省就足以证明使用大型语言模型的合理性,并可能在长期内减少医生的职业倦怠。”
增强人机协作
通过其结果,该研究还指出了如何改进临床实践中医生与AI的合作方式。Goh建议,医生的信任是根本要素,即在实践中,医生会认真考虑AI的观点,并认为其可能是正确的。这种信任部分来自于医生了解AI模型是如何训练的以及使用的材料。因此,一个专门针对医疗保健的LLM,而不是像ChatGPT这样的通用AI,可能会增强信心。此外,医生——就像所有人一样——需要熟悉和使用LLM。职业发展以学习最佳实践也将带来回报。最重要的是,患者安全必须始终处于任何AI临床应用的核心,Goh指出。医生方面需要设置保障措施,以确保AI响应经过审查,不会被视为最终诊断结果,他建议,患者将继续期望并希望有一位受信任的人类专业人士作为中介。“AI不会取代医生,”Goh说。“只有你的医生才能开药、做手术或进行其他任何干预。”然而,AI在这里是为了帮助,Goh说。“患者关心的不仅仅是诊断,而是确保他们所患的疾病能得到正确治疗,”Goh说。“人类医生负责治疗方面,希望AI工具能帮助他们更好地完成工作。”
继这项开创性的研究之后,斯坦福大学、贝丝以色列女执事医疗中心、弗吉尼亚大学和明尼苏达大学还启动了一个名为ARiSE(AI研究和科学评估)的双海岸AI评估网络,以进一步评估医疗保健中的GenAI输出。更多信息请访问ARiSE网站。
(全文结束)


