ChatGPT健康版在急诊和自杀预防中的缺陷 - AI与医疗健康

ChatGPT健康版在急诊和自杀预防中的缺陷"ChatGPT Health": Weaknesses in Medical Emergencies and Suicide Prevention | heise online

环球医讯 / AI与医疗健康来源：www.heise.de德国 - 德语2026-03-10 03:38:23 - 阅读时长4分钟 - 1515字

德国heise online报道，《自然医学》期刊最新研究揭示OpenAI推出的ChatGPT健康版存在重大安全隐患：该系统对51.6%的真实医疗急诊（如糖尿病酮症酸中毒）错误建议24-48小时内就医而非立即急诊，同时对65%的轻微症状过度预警；在心理健康危机处理中，当用户提供具体自杀计划时，系统常因聚焦正常体检指标而忽略危机，仅对模糊表述触发安全机制。研究强烈呼吁对医疗AI实施医疗器械级的安全审批流程，避免因延误救治或挤占医疗资源造成生命危险。

"ChatGPT健康版"：急诊与自杀预防中的重大缺陷

最新研究表明，ChatGPT健康版在真实急诊和心理危机场景中可能给出危险建议。

（图片：Farknot Architect / Shutterstock.com）

2026年1月，OpenAI推出"ChatGPT健康版"，旨在成为健康咨询的首个数字入口。此类应用的关键在于AI能否准确评估问题的严重性和紧迫性——其建议范围从"居家处理"到"数周内就诊"，直至"立即前往急诊室"。

研究人员在《自然医学》期刊发表的系统性研究中，对这种AI分诊的实际可靠性与安全性进行了检验，发现了令人担忧的缺陷。

基于医学案例的系统审查

为在受控环境下验证AI的准确性，医学专家设计了涵盖21个医学领域的60个详细临床案例。这些案例经过方法学调整，研究人员在文本提示中修改了虚构患者性别、肤色等特征，模拟了交通不便等现实障碍，并加入亲属安抚等心理因素。

研究团队共向ChatGPT健康版提交960次问询，将AI的分诊建议与医学专家团队（基于临床指南）的独立评估进行比对。

真实急诊与无害状况中的局限性

评估结果呈现两极分化：对于中等严重程度的日常医疗问题，AI建议与医生意见基本一致；但在极端严重性场景——即完全无害或急性危及生命的情况——表现显著下滑。

漏诊风险（急诊评估不足）：在51.6%的真实医疗急诊中，AI将状况评估为过低风险。例如，对于严重糖尿病酮症酸中毒或急性哮喘发作患者，系统建议"24至48小时内就诊"而非立即急诊。尽管AI有时能识别文本中的危急症状，却常误判其重要性（如以"患者仍能完整说话"为由忽略呼吸困难）。

过度预警（轻微症状过度反应）：ChatGPT健康版对无害主诉通常过度谨慎。近65%的案例中，根据指南本可居家观察的情况被系统归类为需就医，医生就诊建议被频繁提出。研究人员认为，这可能导致医疗资源非必要挤占。

两类错误均存在问题，而漏诊尤为危险——若患者因此延误救治将危及生命。对于既不紧急也非无害的常规案例，ChatGPT健康版表现良好，在93%的案例中与医学建议一致。

外部信息对AI决策的影响

研究还检验了心理效应如何影响AI初筛。发现ChatGPT健康版易受"锚定效应"干扰：若在临界医疗案例中偶然提及"亲友认为症状不严重"，AI评估紧迫性的概率显著上升（比值比11.7）。

但虚构案例中患者的肤色或性别等人口统计学因素，对分诊建议未产生统计学显著影响。

心理健康危机中的安全机制缺陷

研究重点考察了AI处理心理健康危机的能力。ChatGPT健康版设有安全机制：当用户表达自杀意念时，会显示"援助可用"警示横幅及危机热线链接。

研究揭示多处缺陷：该机制仅对模糊、被动的自杀表述可靠触发；若虚构患者提出具体自杀计划（如服用特定药物），同时提供正常体检指标，则警示横幅通常不出现。此时系统过度聚焦生理参数（如建议"您的检验值正常，未显示这些想法的医学原因"），常未能识别急性心理危机。

医疗AI监管的启示

研究者基于发现提出行业建议：尽管OpenAI等提供商声明其系统不替代医学诊断，但若AI告知用户"无严重问题"，许多人可能推迟或放弃就诊。

科学家强调，作为医疗初筛入口的系统应接受更严格审查。他们主张面向患者的医疗AI工具在广泛发布前，需经历类似传统医疗器械的外部安全审批测试，以切实保障患者安全。

【全文结束】