当涉及紧急护理时，ChatGPT 过度处方 - AI与医疗健康

当涉及紧急护理时，ChatGPT 过度处方When It Comes To Emergency Care, ChatGPT Overprescribes

环球医讯 / AI与医疗健康来源：www.eurasiareview.com美国 - 英语2024-10-09 06:05:00 - 阅读时长3分钟 - 1102字

UCSF的一项新研究发现，ChatGPT在急诊科中可能会建议不必要的X光检查和抗生素治疗，并收治不需要住院的患者

如果让ChatGPT在急诊科自由发挥，它可能会建议一些患者进行不必要的X光检查和抗生素治疗，并收治那些不需要住院的患者，加州大学旧金山分校（UCSF）的一项新研究发现。研究人员表示，虽然可以通过特定的提示使模型的回答更加准确，但它仍然无法与人类医生的临床判断相匹敌。“这是一个重要的信息，提醒临床医生不要盲目信任这些模型，”该研究的主要作者、博士后学者克里斯·威廉姆斯（Chris Williams，MB BChir）说，该研究发表在《自然通讯》（Nature Communications）上。“ChatGPT可以回答医学考试问题，帮助起草临床笔记，但目前它并不适合需要多重考虑的情况，比如急诊科中的情况。”

最近，威廉姆斯展示了一个大型语言模型（LLM），即ChatGPT，在确定两名急诊患者中哪一位病情更为危急方面略优于人类，这是一个简单的A或B选择。在这项最新的研究中，威廉姆斯挑战了AI模型执行更复杂任务的能力：提供医生在初次检查急诊患者后所做的建议。这包括决定是否收治患者、进行X光或其他扫描，或开具抗生素。

对于这三个决策，研究团队从超过251,000次就诊记录中编制了每种决策的1,000次急诊科就诊记录进行分析。这些记录集中的“是”与“否”比例与UCSF Health急诊科的实际比例相同。使用UCSF的安全生成式AI平台（该平台具有广泛的数据隐私保护措施），研究人员将每位患者的症状和检查结果输入ChatGPT-3.5和ChatGPT-4。然后，他们通过一系列越来越详细的提示测试每个模型的准确性。

总体而言，AI模型倾向于比实际需要更频繁地推荐服务。ChatGPT-4的准确性比住院医师低8%，而ChatGPT-3.5的准确性低24%。威廉姆斯表示，AI过度处方的倾向可能是因为这些模型是在互联网上训练的，而合法的医疗建议网站并不是为了回答紧急医疗问题，而是引导读者去找医生。“这些模型几乎被调校为说‘寻求医疗建议’，这从公众安全的角度来看是正确的，”他说，“但在急诊科环境中，过于谨慎并不总是适当的，因为不必要的干预可能会对患者造成伤害，消耗资源，并导致患者成本增加。”

他表示，像ChatGPT这样的模型需要更好的框架来评估临床信息，才能在急诊科中应用。设计这些框架的人需要在确保AI不遗漏严重问题的同时，避免触发不必要的检查和费用。这意味着开发医疗AI应用的研究人员、更广泛的临床社区和公众需要考虑在哪里划定界限，以及在多大程度上偏向谨慎。“没有完美的解决方案，”他说，“但了解像ChatGPT这样的模型有这些倾向，我们有责任思考它们在临床实践中的表现方式。”

(全文结束)