当涉及紧急护理时,ChatGPT 过度处方When It Comes To Emergency Care, ChatGPT Overprescribes

环球医讯 / AI与医疗健康来源:www.eurasiareview.com美国 - 英语2024-10-09 06:05:00 - 阅读时长3分钟 - 1101字
UCSF的一项新研究发现,ChatGPT在急诊科中可能会建议不必要的X光检查和抗生素治疗,并收治不需要住院的患者
ChatGPT过度处方紧急护理急诊科人类医生临床判断UCSFNatureCommunications
当涉及紧急护理时,ChatGPT 过度处方

如果让ChatGPT在急诊科自由发挥,它可能会建议一些患者进行不必要的X光检查和抗生素治疗,并收治那些不需要住院的患者,加州大学旧金山分校(UCSF)的一项新研究发现。研究人员表示,虽然可以通过特定的提示使模型的回答更加准确,但它仍然无法与人类医生的临床判断相匹敌。“这是一个重要的信息,提醒临床医生不要盲目信任这些模型,”该研究的主要作者、博士后学者克里斯·威廉姆斯(Chris Williams,MB BChir)说,该研究发表在《自然通讯》(Nature Communications)上。“ChatGPT可以回答医学考试问题,帮助起草临床笔记,但目前它并不适合需要多重考虑的情况,比如急诊科中的情况。”

最近,威廉姆斯展示了一个大型语言模型(LLM),即ChatGPT,在确定两名急诊患者中哪一位病情更为危急方面略优于人类,这是一个简单的A或B选择。在这项最新的研究中,威廉姆斯挑战了AI模型执行更复杂任务的能力:提供医生在初次检查急诊患者后所做的建议。这包括决定是否收治患者、进行X光或其他扫描,或开具抗生素。

对于这三个决策,研究团队从超过251,000次就诊记录中编制了每种决策的1,000次急诊科就诊记录进行分析。这些记录集中的“是”与“否”比例与UCSF Health急诊科的实际比例相同。使用UCSF的安全生成式AI平台(该平台具有广泛的数据隐私保护措施),研究人员将每位患者的症状和检查结果输入ChatGPT-3.5和ChatGPT-4。然后,他们通过一系列越来越详细的提示测试每个模型的准确性。

总体而言,AI模型倾向于比实际需要更频繁地推荐服务。ChatGPT-4的准确性比住院医师低8%,而ChatGPT-3.5的准确性低24%。威廉姆斯表示,AI过度处方的倾向可能是因为这些模型是在互联网上训练的,而合法的医疗建议网站并不是为了回答紧急医疗问题,而是引导读者去找医生。“这些模型几乎被调校为说‘寻求医疗建议’,这从公众安全的角度来看是正确的,”他说,“但在急诊科环境中,过于谨慎并不总是适当的,因为不必要的干预可能会对患者造成伤害,消耗资源,并导致患者成本增加。”

他表示,像ChatGPT这样的模型需要更好的框架来评估临床信息,才能在急诊科中应用。设计这些框架的人需要在确保AI不遗漏严重问题的同时,避免触发不必要的检查和费用。这意味着开发医疗AI应用的研究人员、更广泛的临床社区和公众需要考虑在哪里划定界限,以及在多大程度上偏向谨慎。“没有完美的解决方案,”他说,“但了解像ChatGPT这样的模型有这些倾向,我们有责任思考它们在临床实践中的表现方式。”


(全文结束)

大健康
大健康