Newswise — 纽约,纽约 — 西奈山伊坎医学院研究人员发现,这款广泛面向公众提供健康指导(包括就医紧急程度建议)的消费者级人工智能(AI)工具ChatGPT Health,在大量严重病例中可能无法恰当地引导用户寻求紧急医疗护理。
这项研究于2026年2月23日在线发表在《自然医学》杂志的快速通道版中,是自2026年1月该基于大语言模型(LLM)的工具发布以来的首次独立安全评估。研究还发现了该工具在自杀危机防护措施方面存在的严重问题。
"这一差距促使我们开展了这项研究,"西奈山伊坎医学院泌尿科讲师、主要作者Ashwin Ramaswamy博士表示。"我们想回答一个非常基础但关键的问题:如果有人正在经历真正的医疗紧急情况并向ChatGPT Health寻求帮助,它是否会明确告诉他们去急诊室?"
哈佛医学院生物医学信息学系主任Isaac S. Kohane博士(未参与此项研究)表示:"大语言模型已成为患者获取医疗建议的首选——但在2026年,它们在临床极端情况下最不安全,此时判断力决定着是漏诊紧急情况还是引发不必要的恐慌。当数百万人使用AI系统来决定是否需要紧急医疗护理时,风险异常之高。独立评估应该是常规操作,而非可选项。"
自发布以来数周内,ChatGPT Health的开发商OpenAI报告称,约有4000万人每天使用该工具获取健康信息和指导,包括是否寻求紧急或急诊护理的建议。同时,研究人员表示,关于其建议的安全性或可靠性,几乎没有独立证据。
关于自杀风险警报,ChatGPT Health被设计为在高风险情况下将用户引导至988自杀与危机热线。然而,研究人员发现这些警报出现的不一致性很高,有时在低风险场景下触发,而在用户描述具体自残计划时却令人担忧地未能触发。
"这是一个特别令人惊讶和担忧的发现,"西奈山医学中心Windreich人工智能与人类健康系Barbara T. Murphy讲席教授、Hasso Plattner数字健康研究所主任、西奈山伊坎医学院Irene和Dr. Arthur M. Fishberg医学教授、同时也是西奈山健康系统首席AI官的Girish N. Nadkarni博士表示。"虽然我们预期会有一些变异性,但我们观察到的情况超出了不一致的范畴。系统的警报与临床风险呈反向关系,对于低风险场景的触发比当有人分享他们打算如何伤害自己时更为可靠。在现实生活中,当有人确切谈论他们将如何伤害自己时,这恰恰表明存在更直接和严重的危险,而不是危险较小。"
作为评估的一部分,研究团队创建了60个结构化临床场景,涵盖21个医学专业。案例范围从适合家庭护理的轻微状况到真正的医疗紧急情况。三位独立医生根据56个医学协会的指南确定了每个案例的正确紧急程度。
每个场景在16种不同的上下文条件下进行了测试,包括种族、性别、社会动态(如有人淡化症状)以及缺乏保险或交通等医疗障碍的变体。总计,研究团队与ChatGPT Health进行了960次交互,并将其建议与医生共识进行了比较。
在测试医生开发的60个真实患者场景时,研究人员发现,虽然该工具通常能正确处理明确的紧急情况,但它对医生确定需要紧急医疗护理的病例中,超过一半的病例进行了错误的低级别分诊。
研究人员还对系统在医疗紧急情况下的失败方式感到震惊。该工具通常在自己的解释中表明它认识到了危险的发现,但仍然安慰患者。
"ChatGPT Health在教科书式的紧急情况(如中风或严重过敏反应)中表现良好,"Ramaswamy博士表示。"但在危险不立即明显的更微妙情况下,它表现不佳,而这些情况往往是临床判断最为重要的案例。例如,在一个哮喘场景中,系统在其解释中识别出呼吸衰竭的早期预警信号,但仍建议等待而不是寻求紧急治疗。"
研究作者建议,对于恶化或令人担忧的症状,包括胸痛、呼吸困难、严重过敏反应或精神状态改变,人们应直接寻求医疗护理,而不是仅仅依赖聊天机器人指导。在涉及自残想法的情况下,个人应联系988自杀与危机热线或前往急诊科。
尽管如此,研究人员强调,这些发现并不意味着消费者应该完全放弃AI健康工具。
"作为一名在AI健康工具已掌握在数百万人手中的时代接受培训的医学生,我认为我们应该将这些技术视为必须学会将其深思熟虑地整合到护理中,而不是临床判断的替代品,"西奈山伊坎医学院一年级医学生、该研究的第二作者Alvira Tyagi表示。"这些系统正在快速变化,因此我们现在的部分培训必须考虑学习如何批判性地理解它们的输出,识别它们的不足之处,并以保护患者的方式使用它们。"
该研究在单一时间点评估了该系统。研究人员表示,由于AI模型经常更新,性能可能会随时间变化,这凸显了独立评估的必要性。
"在实时演化的工具旁边开始医学培训清楚地表明,今天的结果并非一成不变,"Tyagi女士表示。"这一现实要求持续审查,以确保技术改进转化为更安全的护理。"
研究团队计划继续评估ChatGPT Health和其他面向消费者的AI工具的更新版本,并将未来研究扩展到儿科护理、用药安全和非英语使用等领域。
【全文结束】

