斯坦福大学评估医疗保健中的人工智能代理Stanford benchmarks AI agents in healthcare - Becker's Hospital Review | Healthcare News & Analysis

环球医讯 / AI与医疗健康来源:www.beckershospitalreview.com美国 - 英语2025-09-17 01:21:20 - 阅读时长2分钟 - 823字
斯坦福大学研究团队开发了评估人工智能代理在医疗保健领域准确性和有效性的基准测试体系,研究成果发表于《新英格兰医学杂志AI》。该研究通过构建包含100个真实患者档案和78.5万条电子健康记录的模拟环境,测试了12种大型语言模型完成300项临床任务(如开立检查单、开具处方和检索患者信息)的能力,发现较新模型如Claude 3.5 Sonnet v2成功率最高达69.67%,但模型在复杂工作流的细致推理和跨医疗系统互操作性方面仍存在显著挑战,这为未来优化AI工具在真实医疗场景中的应用提供了关键参考和改进路径,标志着医疗AI从理论向实践转化的重要一步。
斯坦福大学人工智能代理医疗保健电子健康记录大型语言模型临床任务准确性与有效性基准测试模型成功率真实世界试点
斯坦福大学评估医疗保健中的人工智能代理

斯坦福大学(Stanford University)研究团队开发了用于衡量人工智能代理在协助医生方面的准确性和有效性的基准测试,并将其研究发现发表在《新英格兰医学杂志AI》上。

该团队测试了大型语言模型处理医疗信息和为医生完成行政任务(如开立检查单、开具处方和检索患者信息)的能力。

斯坦福大学在新闻稿中援引该论文高级作者、医学和生物医学数据科学副教授乔纳森·陈(Jonathan Chen)的话称:“聊天机器人只会说话,而人工智能代理能够行动。这意味着它们理论上可以直接从电子病历中检索患者信息,对这些信息进行推理,并通过直接输入检查和药物订单来采取行动。在高风险的医疗保健领域,这对自主性提出了更高的要求。我们需要一个基准来确立人工智能在可重复任务上的当前能力水平,以便我们能够优化。”

研究人员开发了一个包含100个真实患者档案(共78.5万条记录)的电子健康记录环境,以测试大型语言模型作为人工智能代理完成300项临床任务的能力。他们测量了错误类型和频率,以了解人工智能代理在现实情况中的表现,发现许多模型在处理复杂工作流所需的细致推理方面存在困难。当记录来自多个医疗系统时,互操作性也成为一个挑战。

模型的成功率如下:

  1. Claude 3.5 Sonnet v2:69.67%
  2. GPT-40:64%
  3. DeepSeek-V3(685B,开源):62.67%
  4. Gemini-1.5 Pro:62%
  5. GPT-40-mini:56.33%
  6. O3-mini:51.67%
  7. Qwen2.5(72B,开源):51.33%
  8. Llama 3.3(70B,开源):46.33%
  9. Gemini 2.0 Flash:38.33%
  10. Gemma2(27B,开源):19.33%
  11. Gemini 2.0 Pro:18%
  12. Mistral v0.3(7B,开源):4%

较新的大型语言模型比旧模型表现更好,研究人员认为未来可以在真实世界试点中测试这些工具。

【全文结束】