西奈山研究人员对ChatGPT Health安全性提出担忧Mount Sinai researchers raise safety concerns about ChatGPT Health

环球医讯 / AI与医疗健康来源:www.beckershospitalreview.com美国 - 英语2026-02-27 15:46:12 - 阅读时长2分钟 - 733字
西奈山伊坎医学院研究人员在《自然·医学》发表的开创性研究显示,健康版ChatGPT在处理紧急医疗状况时存在严重安全隐患,对医生判定需紧急治疗的重症病例中超过52%存在评估不足问题。研究团队通过60种覆盖21个医学专科的临床场景,在960次交互测试中发现该AI工具在复杂情境下表现欠佳,例如识别出哮喘患者呼吸衰竭早期征兆却未建议紧急救治,且自杀风险预警系统存在严重不一致性——低风险场景错误触发而高危自残描述时却失效。研究人员强调消费者不应完全放弃AI医疗工具,但必须建立持续独立评估机制,因AI系统频繁更新可能导致性能波动,亟需确保其安全性和临床可靠性以保障患者生命安全。
ChatGPTHealth健康安全性医疗指导紧急护理西奈山研究自然·医学临床场景医师共识自杀风险防护独立评估
西奈山研究人员对ChatGPT Health安全性提出担忧

西奈山伊坎医学院的研究人员对ChatGPT Health的安全性表示担忧,这款面向消费者的AI工具旨在提供医疗指导,包括何时寻求紧急护理的建议。

根据西奈山2月24日发布的新闻稿,发表在2月23日《自然·医学》杂志上的一项研究发现,该工具对医生确定需要紧急治疗的严重病例中,超过一半存在评估不足的情况。这项研究标志着自2026年1月该基于大语言模型的系统推出以来,首次对其进行的独立安全评估。

为了测试该系统,研究人员开发了60种涵盖21个医学专科的结构化临床场景。这些病例从适合居家护理的轻微病症到真正的紧急情况不等。三位独立医师根据56个医学协会的指南,为每个场景确定了正确的紧急程度。

每个病例在16种不同的上下文变化下通过聊天机器人进行测试,包括种族、性别、社会动态以及缺乏保险或交通工具等护理障碍的差异。总计,研究团队进行了960次与该工具的交互,并将其建议与医师共识进行比较。

研究人员发现,虽然该系统在中风或严重过敏反应等明确的紧急情况下表现良好,但在更微妙的情况下却表现不佳。在某些情况下,聊天机器人的书面解释正确识别了危险信号,但仍建议患者等待而不是寻求紧急护理。

例如,在一个哮喘场景中,该系统注意到了呼吸衰竭的早期迹象,但没有建议立即进行紧急治疗。

该研究还发现了该工具自杀风险防护措施的问题。ChatGPT Health设计用于在高风险情况下将用户引导至988自杀与危机热线。然而,研究人员发现这些警报出现不一致——有时在低风险情况下触发,而在用户描述具体自残计划时却未能出现。

研究人员强调,他们的发现并不意味着消费者应该完全放弃AI医疗工具。相反,他们呼吁进行持续的独立评估,指出AI系统经常更新,性能可能会随时间而变化。

【全文结束】