斯坦福大学(Stanford University)研究团队开发了用于衡量人工智能代理在协助医生方面的准确性和有效性的基准测试,并将其研究发现发表在《新英格兰医学杂志AI》上。
该团队测试了大型语言模型处理医疗信息和为医生完成行政任务(如开立检查单、开具处方和检索患者信息)的能力。
斯坦福大学在新闻稿中援引该论文高级作者、医学和生物医学数据科学副教授乔纳森·陈(Jonathan Chen)的话称:“聊天机器人只会说话,而人工智能代理能够行动。这意味着它们理论上可以直接从电子病历中检索患者信息,对这些信息进行推理,并通过直接输入检查和药物订单来采取行动。在高风险的医疗保健领域,这对自主性提出了更高的要求。我们需要一个基准来确立人工智能在可重复任务上的当前能力水平,以便我们能够优化。”
研究人员开发了一个包含100个真实患者档案(共78.5万条记录)的电子健康记录环境,以测试大型语言模型作为人工智能代理完成300项临床任务的能力。他们测量了错误类型和频率,以了解人工智能代理在现实情况中的表现,发现许多模型在处理复杂工作流所需的细致推理方面存在困难。当记录来自多个医疗系统时,互操作性也成为一个挑战。
模型的成功率如下:
- Claude 3.5 Sonnet v2:69.67%
- GPT-40:64%
- DeepSeek-V3(685B,开源):62.67%
- Gemini-1.5 Pro:62%
- GPT-40-mini:56.33%
- O3-mini:51.67%
- Qwen2.5(72B,开源):51.33%
- Llama 3.3(70B,开源):46.33%
- Gemini 2.0 Flash:38.33%
- Gemma2(27B,开源):19.33%
- Gemini 2.0 Pro:18%
- Mistral v0.3(7B,开源):4%
较新的大型语言模型比旧模型表现更好,研究人员认为未来可以在真实世界试点中测试这些工具。
【全文结束】