在紧急护理中，ChatGPT 过度开药 - AI与医疗健康

在紧急护理中，ChatGPT 过度开药When It Comes to Emergency Care, ChatGPT Overprescribes

环球医讯 / AI与医疗健康来源：www.ucsf.edu美国 - 英语2024-10-08 17:36:00 - 阅读时长3分钟 - 1161字

加州大学旧金山分校的一项新研究发现，ChatGPT 在急诊科可能会建议不必要的X光检查和抗生素治疗，并且过度收治不需要住院的患者

如果让 ChatGPT 在急诊科（ED）自由运作，它可能会建议一些患者进行不必要的X光检查和抗生素治疗，并收治那些实际上不需要住院治疗的患者，加州大学旧金山分校的一项新研究发现。研究人员表示，虽然可以通过特定提示使模型的回答更准确，但目前它仍然无法与人类医生的临床判断相匹敌。

“这是一个重要的信息，提醒临床医生不要盲目信任这些模型，”该研究的主要作者、博士后学者 Chris Williams（MB BChir）说，该研究于10月8日发表在《自然通讯》上。“ChatGPT 可以回答医学考试问题并帮助撰写临床笔记，但它目前并不适合需要多方面考虑的情况，如急诊科。”

最近，Williams 展示了 ChatGPT，这是一种大型语言模型（LLM），可以用于研究人工智能的临床应用。结果显示，ChatGPT 在判断两个急诊患者中谁病情更严重方面略优于人类，这是一个相对简单的选择题，即患者A或患者B。

在当前的研究中，Williams 挑战了AI模型执行更复杂任务的能力：提供医生在急诊科初次检查患者后所做出的建议。这包括决定是否收治患者、进行X光或其他扫描，或开具抗生素。

为了分析每个决策，研究团队从超过251,000次急诊访问记录中整理了1,000次急诊访问的数据集。这些数据集的收治、放射学和抗生素决策的“是”与“否”比例与 UCSF 健康系统的急诊科相同。

使用 UCSF 安全的人工智能平台，该平台具有广泛的隐私保护措施，研究人员将每位患者的症状和检查结果的医生笔记输入到 ChatGPT-3.5 和 ChatGPT-4 中。然后，他们通过一系列越来越详细的提示测试了每组数据的准确性。

总体而言，AI 模型倾向于比实际需要更频繁地推荐服务。ChatGPT-4 的准确性比住院医师低8%，而 ChatGPT-3.5 的准确性低24%。

Williams 表示，AI 模型过度开药的倾向可能是因为这些模型是在互联网上训练的，而合法的医疗建议网站并不是为了回答紧急医疗问题，而是引导读者去找医生。他说：“这些模型几乎被调校为说‘寻求医疗建议’，这在一般公众安全的角度来看是正确的。但在急诊科环境中，过于谨慎并不总是适当的，因为不必要的干预可能会对患者造成伤害，消耗资源，并导致患者成本增加。”

他表示，像 ChatGPT 这样的模型在进入急诊科之前需要更好的框架来评估临床信息。设计这些框架的人需要在确保AI不遗漏严重情况的同时，避免触发不必要的检查和费用。

这意味着开发医疗应用人工智能的研究人员、更广泛的临床社区和公众需要考虑如何划定这些界限，以及在多大程度上偏向谨慎。

“没有完美的解决方案，”他说，“但了解像 ChatGPT 这样的模型有这些倾向，我们需要思考它们在临床实践中应该如何表现。”

(全文结束)