在紧急护理中,ChatGPT 过度开药When It Comes to Emergency Care, ChatGPT Overprescribes

环球医讯 / AI与医疗健康来源:www.ucsf.edu美国 - 英语2024-10-08 17:36:00 - 阅读时长3分钟 - 1161字
加州大学旧金山分校的一项新研究发现,ChatGPT 在急诊科可能会建议不必要的X光检查和抗生素治疗,并且过度收治不需要住院的患者
ChatGPT过度开药紧急护理急诊科不必要检查抗生素治疗住院治疗临床判断人类医生医疗人工智能
在紧急护理中,ChatGPT 过度开药

如果让 ChatGPT 在急诊科(ED)自由运作,它可能会建议一些患者进行不必要的X光检查和抗生素治疗,并收治那些实际上不需要住院治疗的患者,加州大学旧金山分校的一项新研究发现。研究人员表示,虽然可以通过特定提示使模型的回答更准确,但目前它仍然无法与人类医生的临床判断相匹敌。

“这是一个重要的信息,提醒临床医生不要盲目信任这些模型,”该研究的主要作者、博士后学者 Chris Williams(MB BChir)说,该研究于10月8日发表在《自然通讯》上。“ChatGPT 可以回答医学考试问题并帮助撰写临床笔记,但它目前并不适合需要多方面考虑的情况,如急诊科。”

最近,Williams 展示了 ChatGPT,这是一种大型语言模型(LLM),可以用于研究人工智能的临床应用。结果显示,ChatGPT 在判断两个急诊患者中谁病情更严重方面略优于人类,这是一个相对简单的选择题,即患者A或患者B。

在当前的研究中,Williams 挑战了AI模型执行更复杂任务的能力:提供医生在急诊科初次检查患者后所做出的建议。这包括决定是否收治患者、进行X光或其他扫描,或开具抗生素。

为了分析每个决策,研究团队从超过251,000次急诊访问记录中整理了1,000次急诊访问的数据集。这些数据集的收治、放射学和抗生素决策的“是”与“否”比例与 UCSF 健康系统的急诊科相同。

使用 UCSF 安全的人工智能平台,该平台具有广泛的隐私保护措施,研究人员将每位患者的症状和检查结果的医生笔记输入到 ChatGPT-3.5 和 ChatGPT-4 中。然后,他们通过一系列越来越详细的提示测试了每组数据的准确性。

总体而言,AI 模型倾向于比实际需要更频繁地推荐服务。ChatGPT-4 的准确性比住院医师低8%,而 ChatGPT-3.5 的准确性低24%。

Williams 表示,AI 模型过度开药的倾向可能是因为这些模型是在互联网上训练的,而合法的医疗建议网站并不是为了回答紧急医疗问题,而是引导读者去找医生。他说:“这些模型几乎被调校为说‘寻求医疗建议’,这在一般公众安全的角度来看是正确的。但在急诊科环境中,过于谨慎并不总是适当的,因为不必要的干预可能会对患者造成伤害,消耗资源,并导致患者成本增加。”

他表示,像 ChatGPT 这样的模型在进入急诊科之前需要更好的框架来评估临床信息。设计这些框架的人需要在确保AI不遗漏严重情况的同时,避免触发不必要的检查和费用。

这意味着开发医疗应用人工智能的研究人员、更广泛的临床社区和公众需要考虑如何划定这些界限,以及在多大程度上偏向谨慎。

“没有完美的解决方案,”他说,“但了解像 ChatGPT 这样的模型有这些倾向,我们需要思考它们在临床实践中应该如何表现。”


(全文结束)

大健康
大健康