随着医院已经开始部署人工智能来改善患者护理,一项新研究发现,与使用常规资源相比,使用Chat GPT Plus并不会显著提高医生诊断的准确性。
这项研究由弗吉尼亚大学健康系统(UVA Health)的安德鲁·S·帕森斯博士(MD, MPH)及其同事进行,他们招募了50名家庭医学、内科和急诊医学的医生来测试Chat GPT Plus。一半医生被随机分配使用Chat GPT Plus来诊断复杂病例,而另一半则依靠UpToDate©等医学参考网站和谷歌等传统方法。研究人员随后比较了两种方法的诊断结果,发现两组的准确性相似。
不过,单独使用Chat GPT的表现优于两组医生,这表明它仍有望改善患者护理。然而,研究人员得出结论,医生需要更多关于这项新兴技术的培训和经验,才能充分利用其潜力。
研究人员表示,目前Chat GPT最好用于辅助而非取代人类医生。
"我们的研究表明,人工智能单独使用可以成为诊断的有效而强大的工具,"帕森斯说,他负责弗吉尼亚大学医学院医学生的临床技能教学,并共同领导临床推理研究合作组织。"我们惊讶地发现,将人类医生加入其中实际上降低了诊断准确性,尽管提高了效率。这些结果可能意味着我们需要正式培训如何最好地使用人工智能。"
Chat GPT用于疾病诊断
被称为"大型语言模型"的聊天机器人能够产生类似人类的回应,正变得越来越受欢迎,它们已展现出令人印象深刻的能力,可以采集患者病史、进行富有同理心的沟通,甚至解决复杂的医疗案例。但目前,它们仍然需要人类医生的参与。
帕森斯和他的同事们渴望确定如何最有效地使用这种高科技工具,因此他们在三家领先的医院——弗吉尼亚大学健康系统、斯坦福大学和哈佛大学的贝斯以色列女执事医疗中心——开展了一项随机对照试验。
参与研究的医生对基于真实患者护理案例的"临床病例描述"进行诊断。这些案例研究包括患者病史、体格检查和实验室检测结果的详细信息。研究人员随后对结果进行评分,并检查两组医生做出诊断的速度。
使用Chat GPT Plus的医生的中位诊断准确率为76.3%,而使用传统方法的医生的中位诊断准确率为73.7%。Chat GPT Plus组成员总体上更快地得出诊断结果——519秒对比565秒。
研究人员惊讶于Chat GPT Plus单独表现得如此出色,中位诊断准确率超过92%。他们表示,这可能反映了研究中使用的提示词(prompt),表明医生可能会从如何有效使用提示词的培训中受益。或者,医疗机构可以购买预定义的提示词用于临床工作流程和文档记录。
研究人员还警告说,Chat GPT Plus在现实生活中可能表现不佳,因为在真实的临床推理中还有许多其他方面需要考虑——特别是在确定诊断和治疗决策的后续影响方面。他们呼吁进行额外研究来评估大型语言模型在这些领域的能力,并正在进行一项关于管理决策的类似研究。
"随着人工智能在医疗保健中越来越深入,了解如何利用这些工具来改善患者护理和医生体验至关重要,"帕森斯说。"这项研究表明,在优化临床环境中与人工智能的伙伴关系方面,还有很多工作要做。"
在这项开创性工作的基础上,四个研究站点还启动了一个名为ARiSE(人工智能研究与科学评估)的跨海岸人工智能评估网络,以进一步评估生成式人工智能在医疗保健中的输出。
故事来源:弗吉尼亚大学健康系统提供的材料。注:内容可能因风格和长度而编辑。
期刊参考:
Ethan Goh, Robert Gallo, Jason Hom, Eric Strong, Yingjie Weng, Hannah Kerman, Joséphine A. Cool, Zahir Kanjee, Andrew S. Parsons, Neera Ahuja, Eric Horvitz, Daniel Yang, Arnold Milstein, Andrew P. J. Olson, Adam Rodman, Jonathan H. Chen. 大型语言模型对诊断推理的影响. JAMA网络开放, 2024; 7 (10): e2440969
【全文结束】

