ChatGPT健康版在急诊和自杀预防中的缺陷"ChatGPT Health": Weaknesses in Medical Emergencies and Suicide Prevention | heise online

环球医讯 / AI与医疗健康来源:www.heise.de德国 - 德语2026-03-10 03:38:23 - 阅读时长4分钟 - 1515字
德国heise online报道,《自然医学》期刊最新研究揭示OpenAI推出的ChatGPT健康版存在重大安全隐患:该系统对51.6%的真实医疗急诊(如糖尿病酮症酸中毒)错误建议24-48小时内就医而非立即急诊,同时对65%的轻微症状过度预警;在心理健康危机处理中,当用户提供具体自杀计划时,系统常因聚焦正常体检指标而忽略危机,仅对模糊表述触发安全机制。研究强烈呼吁对医疗AI实施医疗器械级的安全审批流程,避免因延误救治或挤占医疗资源造成生命危险。
ChatGPT健康版急诊自杀预防缺陷分诊漏诊过度预警锚定效应心理危机安全机制医疗AI监管
ChatGPT健康版在急诊和自杀预防中的缺陷

"ChatGPT健康版":急诊与自杀预防中的重大缺陷

最新研究表明,ChatGPT健康版在真实急诊和心理危机场景中可能给出危险建议。

(图片:Farknot Architect / Shutterstock.com)

2026年1月,OpenAI推出"ChatGPT健康版",旨在成为健康咨询的首个数字入口。此类应用的关键在于AI能否准确评估问题的严重性和紧迫性——其建议范围从"居家处理"到"数周内就诊",直至"立即前往急诊室"。

研究人员在《自然医学》期刊发表的系统性研究中,对这种AI分诊的实际可靠性与安全性进行了检验,发现了令人担忧的缺陷。

基于医学案例的系统审查

为在受控环境下验证AI的准确性,医学专家设计了涵盖21个医学领域的60个详细临床案例。这些案例经过方法学调整,研究人员在文本提示中修改了虚构患者性别、肤色等特征,模拟了交通不便等现实障碍,并加入亲属安抚等心理因素。

研究团队共向ChatGPT健康版提交960次问询,将AI的分诊建议与医学专家团队(基于临床指南)的独立评估进行比对。

真实急诊与无害状况中的局限性

评估结果呈现两极分化:对于中等严重程度的日常医疗问题,AI建议与医生意见基本一致;但在极端严重性场景——即完全无害或急性危及生命的情况——表现显著下滑。

漏诊风险(急诊评估不足):在51.6%的真实医疗急诊中,AI将状况评估为过低风险。例如,对于严重糖尿病酮症酸中毒或急性哮喘发作患者,系统建议"24至48小时内就诊"而非立即急诊。尽管AI有时能识别文本中的危急症状,却常误判其重要性(如以"患者仍能完整说话"为由忽略呼吸困难)。

过度预警(轻微症状过度反应):ChatGPT健康版对无害主诉通常过度谨慎。近65%的案例中,根据指南本可居家观察的情况被系统归类为需就医,医生就诊建议被频繁提出。研究人员认为,这可能导致医疗资源非必要挤占。

两类错误均存在问题,而漏诊尤为危险——若患者因此延误救治将危及生命。对于既不紧急也非无害的常规案例,ChatGPT健康版表现良好,在93%的案例中与医学建议一致。

外部信息对AI决策的影响

研究还检验了心理效应如何影响AI初筛。发现ChatGPT健康版易受"锚定效应"干扰:若在临界医疗案例中偶然提及"亲友认为症状不严重",AI评估紧迫性的概率显著上升(比值比11.7)。

但虚构案例中患者的肤色或性别等人口统计学因素,对分诊建议未产生统计学显著影响。

心理健康危机中的安全机制缺陷

研究重点考察了AI处理心理健康危机的能力。ChatGPT健康版设有安全机制:当用户表达自杀意念时,会显示"援助可用"警示横幅及危机热线链接。

研究揭示多处缺陷:该机制仅对模糊、被动的自杀表述可靠触发;若虚构患者提出具体自杀计划(如服用特定药物),同时提供正常体检指标,则警示横幅通常不出现。此时系统过度聚焦生理参数(如建议"您的检验值正常,未显示这些想法的医学原因"),常未能识别急性心理危机。

医疗AI监管的启示

研究者基于发现提出行业建议:尽管OpenAI等提供商声明其系统不替代医学诊断,但若AI告知用户"无严重问题",许多人可能推迟或放弃就诊。

科学家强调,作为医疗初筛入口的系统应接受更严格审查。他们主张面向患者的医疗AI工具在广泛发布前,需经历类似传统医疗器械的外部安全审批测试,以切实保障患者安全。

【全文结束】