研究揭示人工智能医疗分诊盲点 - AI与医疗健康

研究揭示人工智能医疗分诊盲点Research Identifies Blind Spots in AI Medical Triage | Mount Sinai - New York

环球医讯 / AI与医疗健康来源：www.mountsinai.org美国 - 英语2026-03-04 06:13:35 - 阅读时长5分钟 - 2114字

西奈山医学院对ChatGPT Health的独立评估显示，该AI工具在紧急医疗分诊中存在严重缺陷，超过50%需急诊的真实案例被错误建议非紧急处理，其自杀危机预警机制出现反常现象——低风险场景频繁触发警报，而用户描述具体自残计划时却失效，研究团队强调在胸痛、呼吸困难等危急症状出现时应直接就医而非依赖聊天机器人，并呼吁建立常态化独立评估机制以确保AI医疗工具安全可靠，该发现对数亿用户使用消费级AI进行医疗决策具有重大警示意义。

ChatGPT Health是一款直接向公众提供健康指导的消费级人工智能工具，包括就医紧急程度建议。西奈山医学院艾肯生物医学信息学系研究人员发现，该工具在大量严重案例中未能正确引导用户寻求急诊服务。

这项研究于2026年2月23日快速发表在《自然医学》网络版，是自2026年1月该大型语言模型（LLM）工具推出以来的首次独立安全评估。研究同时发现该工具的自杀危机防护机制存在严重隐患。

哈佛医学院生物医学信息学系主任Isaac S. Kohane医学博士表示：“LLM已成为患者获取医疗建议的首选渠道，但在2026年，它们在临床极端情况下的安全性最差——此时判断力直接决定是错失急诊时机还是引发无谓恐慌。当数百万民众使用AI系统决定是否需要急诊时，独立评估应成为常规而非选项。”

ChatGPT Health发布数周内，其开发商OpenAI报告称每日约有4000万人使用该工具获取健康信息及就医建议，包括是否需要紧急或急诊服务。然而研究人员指出，当时缺乏关于其建议安全性和可靠性的独立证据。

“这一空白促使我们开展研究，”西奈山医学院泌尿科讲师、主要作者Ashwin Ramaswamy医学博士表示，“我们旨在回答一个基础却关键的问题：当某人遭遇真实医疗紧急状况并向ChatGPT Health求助时，它能否明确指示其前往急诊室？”

针对自杀风险预警，ChatGPT Health设计为在高风险情况下引导用户联系988自杀与危机热线。但研究者发现这些警报触发不一致，有时在低风险场景激活，而在用户描述具体自残计划时却失效。

“这一发现尤为令人惊讶和担忧，”西奈山医学院人工智能与人类健康温德赖希系主任、高级作者Girish N. Nadkarni医学博士指出，“我们预期存在一定波动性，但实际观察远超不一致范畴。该系统的警报与临床风险呈倒置关系——对低风险场景响应更可靠，反而在用户透露自残意图时失效。现实中，当有人详细说明自残方式时，恰恰表明更紧迫严重的危险，而非风险降低。”

研究团队创建了涵盖21个医学专科的60个结构化临床场景，从适合居家护理的轻症到真实医疗紧急状况。三位独立医师依据56个医学协会指南确定每例的正确紧急程度。每个场景在16种不同情境下测试，包括种族、性别、社交动态（如症状淡化）及保险缺失等就医障碍。团队总计完成960次ChatGPT Health交互，并将建议与医师共识对比。

在医师开发的60个真实患者场景测试中，研究者发现该工具虽能正确处理明确急诊案例（如中风或严重过敏反应），但对医师判定需急诊的案例，超过50%存在分诊不足。研究者还注意到系统在急诊案例中的失效模式：工具常在解释中自行识别危险征兆，却仍向患者保证无需急诊。

“ChatGPT Health在教科书式急诊中表现良好，但在危险性不明显的复杂情境中表现欠佳，而这些恰恰最需要临床判断，”Ramaswamy博士举例说明，“例如在哮喘案例中，系统在解释中识别出呼吸衰竭早期征兆，仍建议等待而非寻求急诊。”

研究团队建议：对于胸痛、呼吸困难、严重过敏反应或精神状态改变等持续恶化或令人担忧的症状，民众应直接就医而非仅依赖聊天机器人指导。涉及自残念头时，应联系988自杀与危机热线或前往急诊室。

不过研究人员强调，研究结果并非建议消费者完全弃用AI健康工具。“作为AI健康工具已普及时代的医学生，我认为这些技术应被审慎整合进医疗流程，而非替代临床判断，”西奈山医学院一年级学生、研究第二作者Alvira Tyagi表示，“这些系统快速迭代，我们的培训需包含批判性解读输出、识别短板及保护患者的使用方法。”

该研究仅评估系统单一时点表现。由于AI模型频繁更新，性能可能随时间变化，研究者强调独立评估的必要性。“在工具实时演进中接受医学训练，让我们清楚今日结果非一成不变，”Tyagi指出，“这要求持续审查以确保技术进步转化为更安全的医疗服务。”

团队计划持续评估ChatGPT Health更新版本及其他面向消费者的AI工具，未来研究将扩展至儿科护理、用药安全及非英语场景。论文题为《ChatGPT Health在分诊建议结构化测试中的表现》。

研究作者包括：Ashwin Ramaswamy医学博士、MPP；Alvira Tyagi学士；Hannah Hugo医学博士；Joy Jiang博士；Pushkala Jayaraman博士；Mateen Jangda理学硕士；Alexis E. Te医学博士；Steven A. Kaplan医学博士；Joshua Lampert医学博士；Robert Freeman护理硕士、理学硕士；Nicholas Gavin医学博士、MBA；Ashutosh K. Tewari外科学士、医学硕士；Ankit Sakhuja外科学士、理学硕士；Bilal Naved博士；Alexander W. Charney医学博士、博士；Mahmud Omar医学博士；Michael A. Gorin医学博士；Eyal Klang医学博士；Girish N. Nadkarni医学博士、MPH。

【全文结束】