西奈山伊坎医学院的研究人员对ChatGPT Health的安全性表示担忧,这款面向消费者的AI工具旨在提供医疗指导,包括何时寻求紧急护理的建议。
根据西奈山2月24日发布的新闻稿,发表在2月23日《自然·医学》杂志上的一项研究发现,该工具对医生确定需要紧急治疗的严重病例中,超过一半存在评估不足的情况。这项研究标志着自2026年1月该基于大语言模型的系统推出以来,首次对其进行的独立安全评估。
为了测试该系统,研究人员开发了60种涵盖21个医学专科的结构化临床场景。这些病例从适合居家护理的轻微病症到真正的紧急情况不等。三位独立医师根据56个医学协会的指南,为每个场景确定了正确的紧急程度。
每个病例在16种不同的上下文变化下通过聊天机器人进行测试,包括种族、性别、社会动态以及缺乏保险或交通工具等护理障碍的差异。总计,研究团队进行了960次与该工具的交互,并将其建议与医师共识进行比较。
研究人员发现,虽然该系统在中风或严重过敏反应等明确的紧急情况下表现良好,但在更微妙的情况下却表现不佳。在某些情况下,聊天机器人的书面解释正确识别了危险信号,但仍建议患者等待而不是寻求紧急护理。
例如,在一个哮喘场景中,该系统注意到了呼吸衰竭的早期迹象,但没有建议立即进行紧急治疗。
该研究还发现了该工具自杀风险防护措施的问题。ChatGPT Health设计用于在高风险情况下将用户引导至988自杀与危机热线。然而,研究人员发现这些警报出现不一致——有时在低风险情况下触发,而在用户描述具体自残计划时却未能出现。
研究人员强调,他们的发现并不意味着消费者应该完全放弃AI医疗工具。相反,他们呼吁进行持续的独立评估,指出AI系统经常更新,性能可能会随时间而变化。
【全文结束】

