如果让 ChatGPT 负责急诊科(ED),患者可能会收到不必要的检查和治疗账单,这是发表在《自然通讯》上的一项研究发现。[1]
加州大学旧金山分校(UCSF)的研究人员测试了 GPT-3.5 和 GPT-4(ChatGPT 的底层模型)在紧急情况下快速做出护理决策的能力,结果发现它倾向于过度开具抗生素、订购过多的X光检查,并不必要地让患者住院。尽管这款流行的AI聊天机器人在其他研究中展示了临床决策能力,但在这种情况下,它的表现甚至不如一名住院急诊科医生,即使在提示方式上使其更加准确的情况下也是如此。
“我们的研究向临床医生传递了一个宝贵的讯息,不要盲目信任这些模型,”该研究的主要作者、UCSF 的博士后研究员克里斯·威廉姆斯博士(Chris Williams)在一份声明中表示。“ChatGPT 可以回答医学考试问题,帮助起草临床记录,但它目前并不适合需要多重考虑的情况,如急诊科的情况。”
威廉姆斯之前的研究显示,ChatGPT 在确定哪些急诊患者应优先处理急性疾病或伤害方面略优于人类临床医生,但在这项回顾性研究中,AI 被赋予了更复杂、更非二元的决策任务。
使用 251,401 份急诊科就诊的存档记录,威廉姆斯和他的团队选择了 1,000 份,确保精确匹配 UCSF Health 急诊室中开具的 X 光检查、使用的抗生素和住院治疗的比例。ChatGPT 的底层模型被提供了这些记录,研究人员手动输入主治医生的自由文本或手写笔记,以确保 AI 能够访问与人类医生相同的检查和临床发现。然后,这些模型被要求做出三种决策之一:给患者开抗生素、订购 X 光或其他医学影像检查;或安排住院。从那里,研究人员测量了模型正确确定临床行动方案的准确性,使用了一系列四个逐步详细的提示来引导它们。
与医生相比,ChatGPT 通常过于积极地推荐所有三种行动方案。无论是 4.0 还是 3.5,都比住院医生不可靠,分别减少了 8% 和 24% 的准确性。因此,尽管 GPT-4 的表现优于其前身,但最终仍不如人类。
归咎于互联网
威廉姆斯表示,ChatGPT 的弱点在于它使用互联网进行训练,而互联网上充斥着不可靠的医疗信息。此外,临床网站往往倾向于建议患者就医和接受治疗,以防万一。
“这些模型几乎被调整到说‘寻求医疗建议’,这在公众安全的一般视角下是正确的,”他说。“但在急诊科环境中,过于谨慎并不总是合适的,因为不必要的干预可能会对患者造成伤害,消耗资源,并导致患者成本增加。”
在详细描述该研究的论文中,作者表示,ChatGPT 在急诊护理环境中过于容易出现假阳性建议,不建议用于该环境。AI 需要一个更好的框架才能部署,该框架需要在不漏诊临床迹象和不过度诊断之间找到平衡。
“然而,尚不清楚临床大语言模型应追求的最佳敏感性/特异性平衡是什么,这可能因特定任务而异,”威廉姆斯等人写道。“我们在提示工程迭代中提高 LLM 特异性的尝试表明,可以针对特定任务进行改进,但仅凭提示工程在多大程度上可以改善性能尚不清楚。”
该研究由尤妮丝·肯尼迪·施莱弗国家儿童健康和人类发展研究所和美国国立卫生研究院资助。完整的研究可以在下面的参考链接中阅读。
参考文献:
- Williams, C., Miao, B. M., Kornblith, A., et al. (2024年10月8日) “评估大型语言模型在急诊科提供临床建议的使用。”《自然通讯》.
(全文结束)


