研究揭示人工智能医疗分诊盲点Research Identifies Blind Spots in AI Medical Triage | Mount Sinai - New York

环球医讯 / AI与医疗健康来源:www.mountsinai.org美国 - 英语2026-03-04 06:13:35 - 阅读时长5分钟 - 2114字
西奈山医学院对ChatGPT Health的独立评估显示,该AI工具在紧急医疗分诊中存在严重缺陷,超过50%需急诊的真实案例被错误建议非紧急处理,其自杀危机预警机制出现反常现象——低风险场景频繁触发警报,而用户描述具体自残计划时却失效,研究团队强调在胸痛、呼吸困难等危急症状出现时应直接就医而非依赖聊天机器人,并呼吁建立常态化独立评估机制以确保AI医疗工具安全可靠,该发现对数亿用户使用消费级AI进行医疗决策具有重大警示意义。
AI医疗分诊ChatGPTHealth人工智能医疗医疗分诊盲点急诊建议自杀危机防护临床场景测试分诊不足医疗安全评估独立评估
研究揭示人工智能医疗分诊盲点

ChatGPT Health是一款直接向公众提供健康指导的消费级人工智能工具,包括就医紧急程度建议。西奈山医学院艾肯生物医学信息学系研究人员发现,该工具在大量严重案例中未能正确引导用户寻求急诊服务。

这项研究于2026年2月23日快速发表在《自然医学》网络版,是自2026年1月该大型语言模型(LLM)工具推出以来的首次独立安全评估。研究同时发现该工具的自杀危机防护机制存在严重隐患。

哈佛医学院生物医学信息学系主任Isaac S. Kohane医学博士表示:“LLM已成为患者获取医疗建议的首选渠道,但在2026年,它们在临床极端情况下的安全性最差——此时判断力直接决定是错失急诊时机还是引发无谓恐慌。当数百万民众使用AI系统决定是否需要急诊时,独立评估应成为常规而非选项。”

ChatGPT Health发布数周内,其开发商OpenAI报告称每日约有4000万人使用该工具获取健康信息及就医建议,包括是否需要紧急或急诊服务。然而研究人员指出,当时缺乏关于其建议安全性和可靠性的独立证据。

“这一空白促使我们开展研究,”西奈山医学院泌尿科讲师、主要作者Ashwin Ramaswamy医学博士表示,“我们旨在回答一个基础却关键的问题:当某人遭遇真实医疗紧急状况并向ChatGPT Health求助时,它能否明确指示其前往急诊室?”

针对自杀风险预警,ChatGPT Health设计为在高风险情况下引导用户联系988自杀与危机热线。但研究者发现这些警报触发不一致,有时在低风险场景激活,而在用户描述具体自残计划时却失效。

“这一发现尤为令人惊讶和担忧,”西奈山医学院人工智能与人类健康温德赖希系主任、高级作者Girish N. Nadkarni医学博士指出,“我们预期存在一定波动性,但实际观察远超不一致范畴。该系统的警报与临床风险呈倒置关系——对低风险场景响应更可靠,反而在用户透露自残意图时失效。现实中,当有人详细说明自残方式时,恰恰表明更紧迫严重的危险,而非风险降低。”

研究团队创建了涵盖21个医学专科的60个结构化临床场景,从适合居家护理的轻症到真实医疗紧急状况。三位独立医师依据56个医学协会指南确定每例的正确紧急程度。每个场景在16种不同情境下测试,包括种族、性别、社交动态(如症状淡化)及保险缺失等就医障碍。团队总计完成960次ChatGPT Health交互,并将建议与医师共识对比。

在医师开发的60个真实患者场景测试中,研究者发现该工具虽能正确处理明确急诊案例(如中风或严重过敏反应),但对医师判定需急诊的案例,超过50%存在分诊不足。研究者还注意到系统在急诊案例中的失效模式:工具常在解释中自行识别危险征兆,却仍向患者保证无需急诊。

“ChatGPT Health在教科书式急诊中表现良好,但在危险性不明显的复杂情境中表现欠佳,而这些恰恰最需要临床判断,”Ramaswamy博士举例说明,“例如在哮喘案例中,系统在解释中识别出呼吸衰竭早期征兆,仍建议等待而非寻求急诊。”

研究团队建议:对于胸痛、呼吸困难、严重过敏反应或精神状态改变等持续恶化或令人担忧的症状,民众应直接就医而非仅依赖聊天机器人指导。涉及自残念头时,应联系988自杀与危机热线或前往急诊室。

不过研究人员强调,研究结果并非建议消费者完全弃用AI健康工具。“作为AI健康工具已普及时代的医学生,我认为这些技术应被审慎整合进医疗流程,而非替代临床判断,”西奈山医学院一年级学生、研究第二作者Alvira Tyagi表示,“这些系统快速迭代,我们的培训需包含批判性解读输出、识别短板及保护患者的使用方法。”

该研究仅评估系统单一时点表现。由于AI模型频繁更新,性能可能随时间变化,研究者强调独立评估的必要性。“在工具实时演进中接受医学训练,让我们清楚今日结果非一成不变,”Tyagi指出,“这要求持续审查以确保技术进步转化为更安全的医疗服务。”

团队计划持续评估ChatGPT Health更新版本及其他面向消费者的AI工具,未来研究将扩展至儿科护理、用药安全及非英语场景。论文题为《ChatGPT Health在分诊建议结构化测试中的表现》。

研究作者包括:Ashwin Ramaswamy医学博士、MPP;Alvira Tyagi学士;Hannah Hugo医学博士;Joy Jiang博士;Pushkala Jayaraman博士;Mateen Jangda理学硕士;Alexis E. Te医学博士;Steven A. Kaplan医学博士;Joshua Lampert医学博士;Robert Freeman护理硕士、理学硕士;Nicholas Gavin医学博士、MBA;Ashutosh K. Tewari外科学士、医学硕士;Ankit Sakhuja外科学士、理学硕士;Bilal Naved博士;Alexander W. Charney医学博士、博士;Mahmud Omar医学博士;Michael A. Gorin医学博士;Eyal Klang医学博士;Girish N. Nadkarni医学博士、MPH。

【全文结束】