随着医院已经开始部署人工智能以改善患者护理,一项新的研究发现,使用Chat GPT Plus并不能显著提高医生诊断的准确性,与使用常规资源相比。这项研究由弗吉尼亚大学健康系统的安德鲁·S·帕森斯(Andrew S. Parsons)博士及其同事进行,招募了50名家庭医学、内科和急诊医学的医生来测试Chat G PT Plus。一半的医生被随机分配使用Chat G PT Plus来诊断复杂病例,而另一半则依赖于常规方法,如医学参考网站(例如UpToDate®)和Google。研究人员随后比较了两组的诊断结果,发现两组的准确性相似。
然而,单独使用Chat G PT的表现超过了两组,这表明它仍有可能改善患者护理。然而,研究人员得出结论,医生需要更多培训和经验才能充分利用这一新兴技术。目前,Chat G PT最适合用于辅助而非替代人类医生。
“我们的研究表明,单独使用AI可以成为一种有效且强大的诊断工具,”帕森斯说,他负责弗吉尼亚大学医学院医学生临床技能的教学,并共同领导临床推理研究合作组织。“我们惊讶地发现,加入人类医生实际上降低了诊断准确性,尽管提高了效率。这些结果可能意味着我们需要正式培训如何最佳使用AI。”
生产类人响应的聊天机器人(称为“大型语言模型”)越来越受欢迎,它们展示了令人印象深刻的能力,可以记录患者病史、同理心沟通甚至解决复杂的医疗案例。但目前,它们仍然需要人类医生的参与。帕森斯和他的同事们热衷于确定这种高科技工具如何最有效地使用,因此他们在三家尖端医院——弗吉尼亚大学健康系统、斯坦福大学和哈佛大学贝丝以色列女执事医疗中心——启动了一项随机对照试验。
参与的医生根据真实患者护理案例的“临床情景”进行诊断。这些案例研究包括患者的病史、体格检查和实验室检测结果的详细信息。研究人员随后对结果进行了评分,并考察了两组医生做出诊断的速度。使用Chat G PT Plus的医生的中位诊断准确率为76.3%,而使用传统方法的医生的中位诊断准确率为73.7%。总体而言,Chat G PT Plus组的医生诊断速度稍快一些,平均用时519秒,而传统方法组的医生平均用时565秒。
研究人员对Chat G PT Plus单独表现之好感到惊讶,其诊断准确率中位数超过92%。他们认为这可能反映了研究中使用的提示词,建议医生可能会从如何有效使用提示词的培训中受益。或者,医疗机构可以购买预定义的提示词,以便在临床工作流程和文档中实施。
研究人员还警告说,Chat G PT Plus在现实生活中可能表现不佳,因为在诊断和治疗决策的下游影响方面,许多其他临床推理因素会发挥作用。他们呼吁进行更多研究,以评估大型语言模型在这些领域的表现,并正在开展一项类似的管理决策研究。
“随着AI在医疗保健中的应用越来越多,了解如何利用这些工具改善患者护理和医生体验至关重要。这项研究表明,在优化临床环境中与AI的合作方面还有大量工作要做。”帕森斯说。
为了进一步评估生成式AI输出在医疗保健中的应用,这四个研究地点还启动了一个名为ARiSE(AI研究和科学评估)的跨海岸AI评估网络。更多信息请访问ARiSE网站。
该研究结果已发表在科学期刊《JAMA Network Open》上。研究团队包括伊桑·戈(Ethan Goh)、罗伯特·加洛(Robert Gallo)、贾森·霍姆(Jason Hom)、埃里克·斯特罗恩(Eric Strong)、温英杰(Yingjie Weng)、汉娜·科曼(Hannah Kerman)、何塞菲娜·库尔(Joséphine A. Cool)、扎希尔·卡尼(Zahir Kanjee)、帕森斯、尼拉·阿胡贾(Neera Ahuja)、埃里克·霍维茨(Eric Horvitz)、丹尼尔·杨(Daniel Yang)、阿诺德·米尔斯泰因(Arnold Milstein)、安德鲁·P·J·奥尔森(Andrew P.J. Olson)、亚当·罗德曼(Adam Rodman)和乔纳森·H·陈(Jonathan H. Chen)。这项研究的资金由戈登和贝蒂·摩尔基金会提供。论文中包含了完整的披露和资金来源列表。
(全文结束)


