微软公司近日发布了一款全新的人工智能工具,其在诊断复杂医疗案例方面的表现优于经验丰富的医生。这款名为“微软AI诊断协调器”(Microsoft AI Diagnostic Orchestrator,简称MAI-DxO)的系统,在《新英格兰医学杂志》提供的复杂病例中,诊断准确率达到85.5%,而由21名来自美国和英国的医生组成的团队,准确率仅为20%。
尽管目前该工具尚未进入临床应用阶段,但它标志着医学AI领域的一项重大进步。微软AI首席执行官Mustafa Suleyman在LinkedIn上发文表示:“我们正在朝着实现‘医学超级智能’迈出一大步。”
MAI-DxO与其他知名AI模型(如GPT、Llama、Claude、Gemini、Grok和DeepSeek)进行了对比测试,结果显示,当与OpenAI的o3模型结合使用时,MAI-DxO的表现最为出色。该系统模仿了人类医生的诊断方法,能够分析患者症状、提出后续问题并推荐检查项目,同时力求减少不必要的诊断步骤,以避免医疗资源的浪费。
尽管微软承认该AI在试验中表现优异,但也指出,在真实的临床环境中,医生通常可以借助第二意见、参考资料和其他工具,而这些因素并未包含在此次研究中。
此次研究的基准测试采用了《新英格兰医学杂志》近期发布的304个具有挑战性的现实病例。微软表示,这种方法超越了以往基于美国医师执照考试(USMLE)多选题形式的评估方式,后者更侧重于记忆而非深入理解。
微软在一篇博客文章中写道,新的诊断基准要求“进行顺序诊断,这是现实世界医疗决策的核心环节”。
微软计划进一步开发MAI-DxO,通过在更常规条件下进行评估以及开展临床测试来确保其安全性和准确性。在实际应用于医疗环境之前,该工具还需获得监管机构的批准。
微软AI健康部门副总裁Bay Gross表示:“这是一项概念验证,表明[大型语言模型]系统可以通过遵循专家医生每天使用的逐步推理和讨论过程,掌握医学中最复杂的诊断挑战。”
微软强调,其目标并非取代医生,而是提升生产力和护理质量。公司认为,AI将在自动化重复性任务、辅助诊断以及制定个性化治疗策略方面发挥关键作用。
关于MAI-DxO的详细研究论文已经完成,但尚未经过同行评审或在科学期刊上发表。
(全文结束)


