西奈山研究人员对ChatGPT Health安全性提出担忧 - AI与医疗健康

西奈山研究人员对ChatGPT Health安全性提出担忧Mount Sinai researchers raise safety concerns about ChatGPT Health

环球医讯 / AI与医疗健康来源：www.beckershospitalreview.com美国 - 英语2026-02-27 15:46:12 - 阅读时长2分钟 - 733字

西奈山伊坎医学院研究人员在《自然·医学》发表的开创性研究显示，健康版ChatGPT在处理紧急医疗状况时存在严重安全隐患，对医生判定需紧急治疗的重症病例中超过52%存在评估不足问题。研究团队通过60种覆盖21个医学专科的临床场景，在960次交互测试中发现该AI工具在复杂情境下表现欠佳，例如识别出哮喘患者呼吸衰竭早期征兆却未建议紧急救治，且自杀风险预警系统存在严重不一致性——低风险场景错误触发而高危自残描述时却失效。研究人员强调消费者不应完全放弃AI医疗工具，但必须建立持续独立评估机制，因AI系统频繁更新可能导致性能波动，亟需确保其安全性和临床可靠性以保障患者生命安全。

西奈山伊坎医学院的研究人员对ChatGPT Health的安全性表示担忧，这款面向消费者的AI工具旨在提供医疗指导，包括何时寻求紧急护理的建议。

根据西奈山2月24日发布的新闻稿，发表在2月23日《自然·医学》杂志上的一项研究发现，该工具对医生确定需要紧急治疗的严重病例中，超过一半存在评估不足的情况。这项研究标志着自2026年1月该基于大语言模型的系统推出以来，首次对其进行的独立安全评估。

为了测试该系统，研究人员开发了60种涵盖21个医学专科的结构化临床场景。这些病例从适合居家护理的轻微病症到真正的紧急情况不等。三位独立医师根据56个医学协会的指南，为每个场景确定了正确的紧急程度。

每个病例在16种不同的上下文变化下通过聊天机器人进行测试，包括种族、性别、社会动态以及缺乏保险或交通工具等护理障碍的差异。总计，研究团队进行了960次与该工具的交互，并将其建议与医师共识进行比较。

研究人员发现，虽然该系统在中风或严重过敏反应等明确的紧急情况下表现良好，但在更微妙的情况下却表现不佳。在某些情况下，聊天机器人的书面解释正确识别了危险信号，但仍建议患者等待而不是寻求紧急护理。

例如，在一个哮喘场景中，该系统注意到了呼吸衰竭的早期迹象，但没有建议立即进行紧急治疗。

该研究还发现了该工具自杀风险防护措施的问题。ChatGPT Health设计用于在高风险情况下将用户引导至988自杀与危机热线。然而，研究人员发现这些警报出现不一致——有时在低风险情况下触发，而在用户描述具体自残计划时却未能出现。

研究人员强调，他们的发现并不意味着消费者应该完全放弃AI医疗工具。相反，他们呼吁进行持续的独立评估，指出AI系统经常更新，性能可能会随时间而变化。

【全文结束】