微软(Microsoft)宣布其在AI驱动的序列诊断研究中取得了令人鼓舞的结果。这项研究旨在通过模拟一组医生的方式改进临床推理能力。微软开发的MAI诊断协调器(MAI Diagnostic Orchestrator,简称MAI-DxO)能够达到80%的诊断准确率,同时相较于人类医生降低了20%的成本。
与传统的多选题式诊断方法不同,MAI-DxO利用独立的语言模型来扮演医生角色。系统中的五位虚拟医生各自具有独特的医学身份和职责(如概率排名诊断、诊断测试专家或“魔鬼代言人”),以提供专业化的诊断支持。该系统通过迭代过程逐步提问、安排检测并缩小可能的诊断范围,力求模仿真实的临床实践流程。
微软研究院根据《新英格兰医学杂志》(New England Journal of Medicine,简称NEJM)发布的304个真实病例记录,设计了互动式医学挑战。当模型(或医生)处理案例时,会通过提问和安排检测获取新的信息,从而逐渐接近最终诊断。随后,这一诊断结果将与NEJM中公布的诊断结果进行对比。
研究评估了多个语言模型的表现,包括由OpenAI、Anthropic、谷歌(Google)、Meta、xAI以及DeepSeek开发的模型。结果显示,MAI-DxO显著提升了所有被测模型的诊断性能。其中表现最佳的组合是MAI-DxO与OpenAI的o3模型,成功解决了85.5%的NEJM基准案例。
尽管这项关于AI驱动临床推理的研究颇具前景,但仍存在一些重要限制。首先,该研究发布于康奈尔大学的开放存取平台arXiv上,尚未经过同行评审。此外,测试案例中未包含健康患者或良性疾病,因此无法评估假阳性率。参与测试的人类医生是在孤立环境中接受评估的,无法借助同事、教科书或其他技术手段,这并不能完全反映现实世界的临床实践。另外,成本效益的计算基于美国医疗系统,对英国国家医疗服务体系(NHS)的适用性有限。
尽管存在这些局限性和监管障碍,这项研究仍然展示了AI在医疗诊断领域的变革潜力。微软正在这一领域加大投资力度。去年,微软大幅扩展了其Microsoft Cloud for Healthcare中的AI功能。而在2025年初,微软推出了RAD-DINO以优化放射学工作流程,以及Microsoft Dragon Copilot——一款用于临床工作流程的AI自然语言助手。
(全文结束)


