这项研究表明,人工智能(AI)在诊断推理方面很快超越了人类医生——这是临床推理和患者护理中至关重要但也是第一步的任务。现在,一项发表于《Nature Medicine》的研究表明,与没有访问大型语言模型(LLM)的医生相比,能够访问这些模型(也称为聊天机器人)的医生在多个患者护理任务中表现更好。
“早期将AI引入医疗保健主要集中在文书工作流程上,例如门户消息传递,”Beth Israel Deaconess医疗中心(BIDMC)AI项目主任Adam Rodman博士说。“但是聊天机器人的理论优势之一在于它们作为合作伙伴的能力,可以增强人类的认知能力。我们的研究结果表明,即使是在开放式的决策等复杂任务中,改善医生的表现也是一个有希望的应用方向。然而,要实现LLM在提升患者护理方面的潜力,仍需严格的验证。”
Rodman及其同事评估了92名执业医师在处理五个基于真实、匿名患者案例的假设病例时的决策过程。研究人员关注的是医生的管理推理,这是临床推理的一部分,涵盖了测试和治疗的决策,同时考虑患者的偏好、社会因素、成本和风险。
“与通常有一个正确答案且LLM擅长的诊断推理不同,管理推理可能没有正确的答案,涉及权衡固有的风险行动之间的利弊,”Rodman说。
当他们的假设患者病例的回答被评分时,使用聊天机器人的医生得分显著高于仅使用传统资源的医生。聊天机器人用户每个病例多花了近两分钟。此外,使用LLM的医生提供的回答导致轻微至中度伤害的可能性较低;在LLM辅助的回答中有3.7%存在轻微至中度伤害的可能性,而传统资源组为5.3%。然而,严重伤害的可能性在两组之间几乎相同。
“与仅使用传统资源相比,LLM的可用性改善了医生的管理推理,AI和仅使用AI的医生之间的得分相当。这表明LLM未来可以用作临床判断的有益补充,”Rodman说。“进一步探讨LLM是否只是鼓励用户放慢速度并更深入地思考,还是它实际上增强了推理过程,将是非常有价值的。”
共同作者包括Beth Israel Deaconess医疗中心的Hannah Kerman、Jason A. Freed、Josephine A. Cool和Zahir Kanjee;斯坦福大学的Ethan Goh、Eric Strong、Yingjie Weng、Neera Ahuja、Arnold Millstein、Jason Hom和Jonathan H. Chen;VA Palo Alto医疗系统的Robert Gallo;明尼苏达大学医学院的Kathleen P. Lane和Andrew P.J. Olsen;弗吉尼亚大学医学院的Andrew S. Parsons;微软的Eric Horvitz;以及凯撒永久医疗集团的Daniel Yang。
Rodman、Cool和Kanjee披露了来自Gordon和Betty Moore基金会的资金支持。有关完整的披露和资助者名单,请参阅出版物。
(全文结束)


