发表于《JAMA Network Open》的新研究表明,临床医生使用大型语言模型(LLM)可能不会显著改善诊断推理表现。
像其他类型的生成式人工智能(GenAI)一样,LLM在医疗保健领域的各种应用中最近展示了潜力,例如简化护理记录和管理任务。这些工具还显示出在医学推理方面的潜力,因为聊天机器人在过去已经取得了多项选择题和开放式医学推理考试的高分。
然而,研究人员指出,这些技术对临床医生诊断推理的影响仍不明确。为了填补这一研究空白,研究团队招募了50名具有家庭医学、内科或急诊医学背景的美国持证临床医生。
参与者被要求在60分钟内审查最多六个临床案例,每位临床医生随机分配使用常规资源和GPT-4的组合或仅使用常规资源。
主要评估指标包括鉴别诊断准确性、支持和反对因素的适当性以及下一步诊断步骤,这些都通过盲审专家共识进行了验证。次要结果,包括每例病例的花费时间和最终诊断准确性,也被记录下来。
LLM组每例病例的平均诊断推理得分为76%,而仅使用常规资源组的得分为74%。每例病例的平均花费时间,LLM组为519秒,常规资源组为565秒。
在二次分析中,研究人员还评估了LLM独立的诊断推理能力。单独使用时,GPT-4的得分比仅使用常规资源组的临床医生高出16个百分点。
这些发现表明,LLM并未显著提升诊断推理表现,强调了进一步探索如何最佳利用GenAI工具支持临床医生的必要性。
“人工智能领域正在迅速扩展,影响着我们生活中的方方面面,包括医疗内外。重要的是我们要研究这些工具,了解如何最好地利用它们来改进我们提供的护理以及提供护理的体验,”明尼苏达大学医学院教授兼M Health Fairview医院医师安德鲁·奥尔森博士在新闻发布会上表示。“这项研究表明,在临床实践中进一步改善医生与AI的合作存在机会。”
自2022年以来,Shania Kennedy一直关注与健康IT和分析相关的新闻。
(全文结束)


