不要称其为ChatEMT。
上个月,OpenAI推出了ChatGPT健康服务(ChatGPT Health),这是ChatGPT内的专属板块,允许用户咨询健康问题、分析医疗记录并连接健康应用。
然而,该服务上线数周后,西奈山伊坎医学院的研究人员指出,该AI工具在紧急病例中常未能建议用户立即就医,有时还会漏报自杀危机警报。
“ChatGPT健康服务在中风或严重过敏反应等典型紧急情况中表现良好,”西奈山伊坎医学院泌尿学讲师阿什温·拉马斯瓦米(Ashwin Ramaswamy)博士在声明中表示,“但在危险不易察觉的复杂情境中表现不佳,而这类情况恰恰最需要临床判断。”
OpenAI在一月份表示,每天有超过4000万人使用ChatGPT处理健康问题。为应对这一需求,ChatGPT健康服务最初面向小范围用户推出,引起了西奈山研究人员的关注。“我们想回答一个基础但关键的问题:当用户遭遇真实医疗紧急状况并向ChatGPT健康服务求助时,它是否会明确指示用户前往急诊室?”拉马斯瓦米说。
本周发表在《自然·医学》期刊的研究中,拉马斯瓦米团队设计了涵盖21个医学专科的60个临床场景。每个场景测试16次,通过变换种族、性别和保险状况等变量观察结果差异。研究人员共记录960次与ChatGPT健康服务的交互,并将建议与医生共识进行比对。
研究发现,该工具在52%的严重病例中未能提示用户寻求急诊。例如,拉马斯瓦米指出,在某一哮喘案例中,ChatGPT健康服务识别出呼吸衰竭的早期征兆,却建议等待而非立即治疗。伦敦大学学院健康错误信息干预博士研究员亚历克斯·鲁阿尼(Alex Ruani)称此类错误评估“危险得难以置信”。“若你正经历呼吸衰竭或糖尿病酮症酸中毒,该AI有50%概率告诉你问题不大,”她向《卫报》表示,“最令人担忧的是这类系统制造的虚假安全感——若在哮喘发作或糖尿病危机时被要求等待48小时,这种安抚可能付出生命的代价。”
研究还显示,ChatGPT健康服务在高风险情境中对988自杀与危机干预热线的提示存在不规律性。西奈山医疗系统首席AI官、该研究资深作者吉里什·纳德卡尼(Girish N. Nadkarni)博士称此为“特别令人惊讶且担忧的发现”。“我们虽预料到某些波动,但观察到的远超不一致性,”他说,“系统警报与临床风险呈反向关联——对低风险场景的提示反而比用户明确表述自残意图时更可靠。现实中,当有人详细描述自残方式,恰恰意味着更紧迫的危险。”
此前已有高调诉讼将用户自杀和心理健康危机归咎于ChatGPT等聊天机器人。OpenAI发言人向《华盛顿邮报》表示欢迎独立研究评估其医疗AI系统,但强调西奈山研究未反映ChatGPT健康服务的真实使用场景,并称该功能正持续更新,改进对情绪困扰用户的响应机制。
西奈山医生并非主张用户完全弃用AI健康工具,而是呼吁对此类系统实施严格监控、独立评估和及时更新。纳德卡尼与拉马斯瓦米向《邮报》表示:“我们认为面向消费者的AI确有需求和价值,但潜在危害亟需通过独立测试、持续监控来识别失效模式,并建立工程与人文双维度的防护机制。”他们计划将评估范围扩展至儿科护理、用药安全及非英语用户群体。
【全文结束】

