ChatGPT健康服务的缺陷及其潜在致命风险Where ChatGPT Health fails — and how it could turn deadly

环球医讯 / AI与医疗健康来源:nypost.com美国 - 英文2026-03-03 00:12:10 - 阅读时长4分钟 - 1579字
西奈山医学院最新研究揭示,OpenAI推出的ChatGPT健康服务在52%的紧急医疗案例中未能建议用户寻求急诊,尤其在危险不明显的复杂病情中表现薄弱;该工具还错误降低高风险自杀预警触发率,例如在用户明确描述自残计划时反而减少警报,可能导致呼吸衰竭或糖尿病酮症酸中毒患者延误治疗,研究强调消费者AI健康工具亟需独立评估、实时监控及人机协同防护机制以避免生命危险,同时呼吁加强针对非英语使用者和儿科领域的专项测试。
ChatGPT健康服务缺陷致命风险紧急病例急诊推荐自杀危机警报虚假安全感医疗AI独立评估监控
ChatGPT健康服务的缺陷及其潜在致命风险

不要称之为ChatEMT。

上个月,OpenAI推出了ChatGPT健康服务(ChatGPT Health),这是ChatGPT内的专属板块,允许用户咨询健康问题、分析医疗记录并连接健康应用程序。

在该服务发布数周后,西奈山医学院(Icahn School of Medicine at Mount Sinai)研究人员提出担忧:该人工智能工具在紧急病例中经常未能推荐用户寻求急诊,有时甚至遗漏自杀危机警报。

西奈山医学院泌尿科讲师Ashwin Ramaswamy博士在声明中表示:“ChatGPT健康服务在中风或严重过敏反应等教科书式紧急情况中表现良好,但在危险不明显的细微情境中则表现欠佳——而这些恰恰是最需要临床判断的案例。”

作为ChatGPT的开发商,OpenAI今年1月表示,每日有超过4000万人使用ChatGPT解决健康问题。因此,ChatGPT健康服务应运而生——最初面向小部分用户推出,引发了西奈山研究人员的好奇。

Ramaswamy表示:“我们想回答一个非常基础但关键的问题:如果有人遭遇真实医疗紧急情况并向ChatGPT健康服务求助,它是否会明确告知用户前往急诊室?”

在其本周发表于《自然医学》(Nature Medicine)的研究中,Ramaswamy团队设计了涵盖21个医学专科的60个临床场景。每个场景测试16次,通过改变种族、性别和保险状况等变量,观察是否导致不同结果。

研究人员总计记录了960次与ChatGPT健康服务的交互,并将其建议与医师共识进行比对。研究发现,该工具在52%的严重病例中未能提示用户寻求急诊护理。例如Ramaswamy所述,在一项哮喘场景测试中,ChatGPT健康服务虽识别出呼吸衰竭的早期预警信号,却建议等待而非立即治疗。

伦敦大学学院健康 misinformation 缓解方向的博士研究员Alex Ruani称这些不准确评估“危险得难以置信”。她向《卫报》表示:“如果您正经历呼吸衰竭或糖尿病酮症酸中毒,这款AI有50%概率告诉您问题不大。最令人担忧的是这些系统制造的虚假安全感——若有人在哮喘发作或糖尿病危机时被告知等待48小时,这种‘ reassurance ’可能付出生命代价。”

根据研究,ChatGPT健康服务在高风险情境中对988自杀与危机生命热线(988 Suicide and Crisis Lifeline)的警报触发也存在不规律现象。西奈山健康系统首席AI官、该研究资深合著者Girish N. Nadkarni博士称此为“特别令人惊讶且担忧的发现”。

Nadkarni表示:“尽管我们预期存在一定变异性,但观察到的结果远超不一致范畴。该系统的警报与临床风险呈反向关联——对低风险场景的响应反而比用户明确表示自残意图时更可靠。在现实中,当有人详述自残计划时,这恰恰是更紧迫危险的信号,而非风险降低。”

ChatGPT及其他聊天机器人此前已被多起高关注度诉讼指控,称其助长了用户自杀和心理健康危机。

OpenAI发言人向《纽约邮报》表示,欢迎对医疗AI系统进行独立评估,但西奈山研究未能反映ChatGPT健康服务的真实使用场景。该功能持续更新优化,已改进针对用户 distress 迹象的响应机制。

西奈山医生并非建议用户完全弃用AI健康工具,而是强调这些系统必须接受严密监控、独立评估并按需更新。

Nadkarni和Ramaswamy向《纽约邮报》表示:“我们确信面向消费者的AI有其存在必要,但潜在危害亟需独立评估测试及持续监控,以明确失效模式并建立工程与人性化防护措施,防止对民众造成不良影响。”他们计划在儿科护理、用药安全及非英语使用者领域评估面向消费者的AI工具。

如果您有自杀念头或正经历心理健康危机,请立即拨打24小时全国自杀预防热线988。

【全文结束】