ChatGPT健康服务的缺陷及其潜在致命风险 - AI与医疗健康

ChatGPT健康服务的缺陷及其潜在致命风险Where ChatGPT Health fails — and how it could turn deadly

环球医讯 / AI与医疗健康来源：nypost.com美国 - 英文2026-03-03 00:12:10 - 阅读时长4分钟 - 1579字

西奈山医学院最新研究揭示，OpenAI推出的ChatGPT健康服务在52%的紧急医疗案例中未能建议用户寻求急诊，尤其在危险不明显的复杂病情中表现薄弱；该工具还错误降低高风险自杀预警触发率，例如在用户明确描述自残计划时反而减少警报，可能导致呼吸衰竭或糖尿病酮症酸中毒患者延误治疗，研究强调消费者AI健康工具亟需独立评估、实时监控及人机协同防护机制以避免生命危险，同时呼吁加强针对非英语使用者和儿科领域的专项测试。

不要称之为ChatEMT。

上个月，OpenAI推出了ChatGPT健康服务（ChatGPT Health），这是ChatGPT内的专属板块，允许用户咨询健康问题、分析医疗记录并连接健康应用程序。

在该服务发布数周后，西奈山医学院（Icahn School of Medicine at Mount Sinai）研究人员提出担忧：该人工智能工具在紧急病例中经常未能推荐用户寻求急诊，有时甚至遗漏自杀危机警报。

西奈山医学院泌尿科讲师Ashwin Ramaswamy博士在声明中表示：“ChatGPT健康服务在中风或严重过敏反应等教科书式紧急情况中表现良好，但在危险不明显的细微情境中则表现欠佳——而这些恰恰是最需要临床判断的案例。”

作为ChatGPT的开发商，OpenAI今年1月表示，每日有超过4000万人使用ChatGPT解决健康问题。因此，ChatGPT健康服务应运而生——最初面向小部分用户推出，引发了西奈山研究人员的好奇。

Ramaswamy表示：“我们想回答一个非常基础但关键的问题：如果有人遭遇真实医疗紧急情况并向ChatGPT健康服务求助，它是否会明确告知用户前往急诊室？”

在其本周发表于《自然医学》（Nature Medicine）的研究中，Ramaswamy团队设计了涵盖21个医学专科的60个临床场景。每个场景测试16次，通过改变种族、性别和保险状况等变量，观察是否导致不同结果。

研究人员总计记录了960次与ChatGPT健康服务的交互，并将其建议与医师共识进行比对。研究发现，该工具在52%的严重病例中未能提示用户寻求急诊护理。例如Ramaswamy所述，在一项哮喘场景测试中，ChatGPT健康服务虽识别出呼吸衰竭的早期预警信号，却建议等待而非立即治疗。

伦敦大学学院健康 misinformation 缓解方向的博士研究员Alex Ruani称这些不准确评估“危险得难以置信”。她向《卫报》表示：“如果您正经历呼吸衰竭或糖尿病酮症酸中毒，这款AI有50%概率告诉您问题不大。最令人担忧的是这些系统制造的虚假安全感——若有人在哮喘发作或糖尿病危机时被告知等待48小时，这种‘ reassurance ’可能付出生命代价。”

根据研究，ChatGPT健康服务在高风险情境中对988自杀与危机生命热线（988 Suicide and Crisis Lifeline）的警报触发也存在不规律现象。西奈山健康系统首席AI官、该研究资深合著者Girish N. Nadkarni博士称此为“特别令人惊讶且担忧的发现”。

Nadkarni表示：“尽管我们预期存在一定变异性，但观察到的结果远超不一致范畴。该系统的警报与临床风险呈反向关联——对低风险场景的响应反而比用户明确表示自残意图时更可靠。在现实中，当有人详述自残计划时，这恰恰是更紧迫危险的信号，而非风险降低。”

ChatGPT及其他聊天机器人此前已被多起高关注度诉讼指控，称其助长了用户自杀和心理健康危机。

OpenAI发言人向《纽约邮报》表示，欢迎对医疗AI系统进行独立评估，但西奈山研究未能反映ChatGPT健康服务的真实使用场景。该功能持续更新优化，已改进针对用户 distress 迹象的响应机制。

西奈山医生并非建议用户完全弃用AI健康工具，而是强调这些系统必须接受严密监控、独立评估并按需更新。

Nadkarni和Ramaswamy向《纽约邮报》表示：“我们确信面向消费者的AI有其存在必要，但潜在危害亟需独立评估测试及持续监控，以明确失效模式并建立工程与人性化防护措施，防止对民众造成不良影响。”他们计划在儿科护理、用药安全及非英语使用者领域评估面向消费者的AI工具。

如果您有自杀念头或正经历心理健康危机，请立即拨打24小时全国自杀预防热线988。

【全文结束】