微软的AI诊断协调器(MAI-DxO)在《新英格兰医学杂志》提供的复杂病例诊断中达到了85%的准确率,比测试中人类医生平均20%的准确率高出四倍以上。该系统展示了AI如何通过提高诊断精度和降低成本来增强医疗保健,尽管微软强调其设计目的是辅助而非取代医生。
工作原理:MAI-DxO将大型语言模型转化为一个协作诊断系统,模拟真实的临床推理过程。
- 该系统与多个先进AI模型协作,包括GPT、Llama、Claude、Gemini、Grok和DeepSeek,形成了微软描述为“拥有不同诊断方法的虚拟医生团队合作解决诊断案例”的机制。
- 与传统的依靠记忆选择题答案的AI医疗基准不同,MAI-DxO使用了微软的顺序诊断基准(SD Bench),遵循真实临床医生使用的逐步诊断过程。
- 系统在生成诊断时会展示其推理过程,请求测试并跟踪成本,呈现出一种人类医生熟悉的诊断流程。
关键性能指标:AI系统在显著超越人类医生的同时保持了成本效率。
- MAI-DxO在所有测试模型中均提升了诊断性能,最佳结果是在与OpenAI的o3模型配对时取得的。
- 该系统与来自英国和美国、具有5至20年经验的21名医生进行了比较,后者的平均诊断准确率仅为20%。
- 除了准确性的提升,MAI-DxO还提供了更高的诊断精度以及比单个模型或人类医生更低的成本。
成本管理功能:系统内置了财务护栏以应对医疗保健中的定价挑战。
- MAI-DxO可以根据用户或组织设定的成本限制运行,并进行诊断测试的成本效益分析。
- 如果没有这些约束,微软指出AI可能会“默认订购所有可能的测试——无论成本、患者不适或护理延迟”。
- 这一功能直接解决了美国医疗保健中令医生和患者都头疼的天价费用问题。
更大的医疗背景:微软的这一发布正值AI逐渐渗透到整个医疗行业的应用之中。
- 微软报告称,其AI消费产品(如Bing和Copilot)每天处理超过5000万次与健康相关的会话。
- “从第一次膝盖疼痛查询到深夜寻找急诊诊所,搜索引擎和AI助手正迅速成为医疗保健的新前线”,微软表示。
- MAI-DxO是微软去年启动的“专注消费者健康努力”的一部分,其他医疗AI工具还包括用于放射学工作流的RAD-DINO和用于语音协助的Microsoft Dragon Copilot。
各方评价:微软承认了AI在医疗领域的潜力与局限性。
- 公司认为,由于其知识的广度,AI可以超越“许多方面的临床推理能力,甚至超越任何个体医生”。
- 然而,微软也承认,MAI-DxO仅在这些专业NEJM病例上进行了测试,因此尚不清楚该系统如何处理常规诊断任务。
- 公司坚持认为,该系统并非旨在取代人类医生,而是通过为患者提供可靠的自我评估选项并帮助医生处理复杂病例来“重塑医疗保健”。
(全文结束)


