AI聊天机器人80%情况下漏诊 初步诊断准确率引马萨诸塞总医院布里格姆研究关注AI chatbots miss initial diagnosis 80% of the time: Mass General Brigham study

环球医讯 / AI与医疗健康来源:www.beckershospitalreview.com美国 - 英语2026-05-18 15:34:28 - 阅读时长2分钟 - 656字
马萨诸塞总医院布里格姆研究中心最新研究显示,人工智能聊天机器人在基于患者初始症状生成可能诊断列表时失败率超过80%,但在获取更多临床信息后表现显著提升;该发表于《JAMA网络开放》的研究评估了21种大型语言模型在29个标准化医疗案例中的表现,发现所有模型在鉴别诊断环节均存在严重缺陷,最终诊断失败率虽可降至9%以下,但研究者强调当前AI缺乏安全临床应用所需的推理能力,建议仅限在低不确定性任务中由医生监督使用,这对医疗AI的实际部署具有重要警示意义。
AI聊天机器人临床诊断漏诊鉴别诊断最终诊断临床推理医疗案例医生监督大型语言模型健康医疗
AI聊天机器人80%情况下漏诊 初步诊断准确率引马萨诸塞总医院布里格姆研究关注

人工智能聊天机器人在基于患者初始症状准确生成可能诊断列表方面失败率超过80%,但当提供更多临床信息时表现显著提升,这是马萨诸塞州萨默维尔市马萨诸塞总医院布里格姆研究中心(Mass General Brigham)最新研究的发现。

研究论文《大型语言模型在临床推理任务中的表现》于4月13日发表在《JAMA网络开放》期刊上。

以下是关键发现:

  1. 研究人员旨在确定大型语言模型能否在临床工作流程中展现可靠性能。研究团队使用29个标准化医疗案例(源自用于培训医疗专业人员的同行评议临床参考书MSD诊疗手册),测试了21种人工智能模型,总计分析16,254条回复。医学院学生根据既定答案标准对各模型回复进行评分,相关分析在2025年1月至12月间进行。研究过程中禁用了实时网络搜索及其他附加功能。
  2. 研究人员模拟真实患者诊疗过程,引导AI模型逐步完成包括鉴别诊断——即根据症状生成可能诊断列表——在内的临床步骤,随后进行诊断测试安排、最终诊断确定及治疗方案规划。
  3. 在测试的21种模型中,鉴别诊断环节表现最为薄弱,失败率普遍超过80%,部分模型在特定场景下甚至达到100%。研究者指出,该缺陷与同一研究团队早前研究结论一致,表明新型AI版本尚未解决这一问题。
  4. 所有模型在最终诊断环节的失败率均低于40%。当提供更多临床信息并要求给出最终诊断时,表现最佳模型的失败率可降至9%。
  5. 研究作者表示,当前模型缺乏安全临床应用所需的推理能力,建议现阶段最负责任的应用方式是在低不确定性任务中采用医生监督下的定向使用。

【全文结束】