ChatGPT健康服务的缺陷及其致命风险 - AI与医疗健康

ChatGPT健康服务的缺陷及其致命风险Where ChatGPT Health fails — and how it could turn deadly

环球医讯 / AI与医疗健康来源：www.yahoo.com美国 - 英语2026-03-02 03:15:55 - 阅读时长3分钟 - 1328字

西奈山医学院研究人员在《自然·医学》发表的研究揭示，OpenAI推出的ChatGPT健康服务在52%的严重紧急病例中未能建议用户寻求急诊，且对高风险自杀危机漏报关键干预热线；该工具在临床判断至关重要的复杂情境中表现薄弱，例如将呼吸衰竭误判为无需紧急处理，或将自残表述识别为低风险，这种错误可能因延误治疗导致生命危险，专家呼吁必须建立独立监管机制和人机协同防护体系以避免AI医疗工具造成现实危害。

不要称其为ChatEMT。

上个月，OpenAI推出了ChatGPT健康服务（ChatGPT Health），这是ChatGPT内的专属板块，允许用户咨询健康问题、分析医疗记录并连接健康应用。

然而，该服务上线数周后，西奈山伊坎医学院的研究人员指出，该AI工具在紧急病例中常未能建议用户立即就医，有时还会漏报自杀危机警报。

“ChatGPT健康服务在中风或严重过敏反应等典型紧急情况中表现良好，”西奈山伊坎医学院泌尿学讲师阿什温·拉马斯瓦米（Ashwin Ramaswamy）博士在声明中表示，“但在危险不易察觉的复杂情境中表现不佳，而这类情况恰恰最需要临床判断。”

OpenAI在一月份表示，每天有超过4000万人使用ChatGPT处理健康问题。为应对这一需求，ChatGPT健康服务最初面向小范围用户推出，引起了西奈山研究人员的关注。“我们想回答一个基础但关键的问题：当用户遭遇真实医疗紧急状况并向ChatGPT健康服务求助时，它是否会明确指示用户前往急诊室？”拉马斯瓦米说。

本周发表在《自然·医学》期刊的研究中，拉马斯瓦米团队设计了涵盖21个医学专科的60个临床场景。每个场景测试16次，通过变换种族、性别和保险状况等变量观察结果差异。研究人员共记录960次与ChatGPT健康服务的交互，并将建议与医生共识进行比对。

研究发现，该工具在52%的严重病例中未能提示用户寻求急诊。例如，拉马斯瓦米指出，在某一哮喘案例中，ChatGPT健康服务识别出呼吸衰竭的早期征兆，却建议等待而非立即治疗。伦敦大学学院健康错误信息干预博士研究员亚历克斯·鲁阿尼（Alex Ruani）称此类错误评估“危险得难以置信”。“若你正经历呼吸衰竭或糖尿病酮症酸中毒，该AI有50%概率告诉你问题不大，”她向《卫报》表示，“最令人担忧的是这类系统制造的虚假安全感——若在哮喘发作或糖尿病危机时被要求等待48小时，这种安抚可能付出生命的代价。”

研究还显示，ChatGPT健康服务在高风险情境中对988自杀与危机干预热线的提示存在不规律性。西奈山医疗系统首席AI官、该研究资深作者吉里什·纳德卡尼（Girish N. Nadkarni）博士称此为“特别令人惊讶且担忧的发现”。“我们虽预料到某些波动，但观察到的远超不一致性，”他说，“系统警报与临床风险呈反向关联——对低风险场景的提示反而比用户明确表述自残意图时更可靠。现实中，当有人详细描述自残方式，恰恰意味着更紧迫的危险。”

此前已有高调诉讼将用户自杀和心理健康危机归咎于ChatGPT等聊天机器人。OpenAI发言人向《华盛顿邮报》表示欢迎独立研究评估其医疗AI系统，但强调西奈山研究未反映ChatGPT健康服务的真实使用场景，并称该功能正持续更新，改进对情绪困扰用户的响应机制。

西奈山医生并非主张用户完全弃用AI健康工具，而是呼吁对此类系统实施严格监控、独立评估和及时更新。纳德卡尼与拉马斯瓦米向《邮报》表示：“我们认为面向消费者的AI确有需求和价值，但潜在危害亟需通过独立测试、持续监控来识别失效模式，并建立工程与人文双维度的防护机制。”他们计划将评估范围扩展至儿科护理、用药安全及非英语用户群体。

【全文结束】