与新英格兰医学杂志(NEJM)每周发布的现实世界病例记录进行对比,我们发现微软AI诊断协调器(MAI-DxO)能够正确诊断高达85%的NEJM病例,这一比率是经验丰富的医生团队的四倍多。此外,MAI-DxO在获得正确诊断方面也比医生更具成本效益。
随着医疗保健需求持续增长,成本正以不可持续的速度上升,数十亿人面临着改善健康的多重障碍——包括不准确和延迟的诊断。越来越多的人开始转向数字工具寻求医疗建议和支持。在微软的AI消费产品如必应(Bing)和Copilot上,我们每天看到超过5000万次与健康相关的会话。从首次膝痛查询到深夜搜索急诊诊所,搜索引擎和AI伴侣正迅速成为医疗保健的新前线。
我们希望做得更多——并相信生成式AI可以带来变革。这就是为什么在2024年底,我们在微软AI启动了一项专门的消费者健康计划,由临床医生、设计师、工程师和AI科学家领导。该计划补充了微软更广泛的健康倡议,并建立在我们对合作伙伴关系和创新的长期承诺之上。现有解决方案包括RAD-DINO,它有助于加速和改善放射学工作流程,以及微软Dragon Copilot,我们开创性的语音优先AI助手,专为临床医生设计。
要使AI发挥作用,临床医生和患者都必须能够信任其性能。这就是我们的新基准和AI协调器的用武之地。
医疗病例挑战与基准
在美国行医,医生需要通过美国医师执照考试(USMLE),这是一项严格的临床知识和决策能力标准化评估。USMLE问题曾是最早用于评估医学中AI系统的基准之一,提供了一种结构化的方式来比较模型性能——既相互比较,也与人类临床医生比较。
短短三年内,生成式AI已经发展到在USMLE和类似考试中获得近乎完美的分数。但这些测试主要依赖于多项选择题,这有利于记忆而非深入理解。通过将医学简化为多项选择题的一次性答案,此类基准高估了AI系统的表面能力,掩盖了其局限性。
在微软AI,我们致力于推进和评估临床推理能力。为了超越多项选择题的局限,我们专注于序贯诊断(sequential diagnosis),这是现实世界医疗决策的基石。在此过程中,临床医生从患者的初始表现开始,然后迭代选择问题和诊断测试,最终得出诊断。例如,一位咳嗽和发烧的患者可能会让临床医生在确诊肺炎之前,先要求并审查血液检测和胸部X光片。
每周,新英格兰医学杂志(NEJM)——世界领先的医学期刊之一——都会发布马萨诸塞州总医院的病例记录,以详细的叙事格式呈现患者的护理历程。这些病例是临床医学中诊断最复杂、智力要求最高的病例之一,通常需要多位专家和诊断测试才能达到明确诊断。
AI表现如何?为了回答这个问题,我们从NEJM病例系列中创建了互动病例挑战——我们称之为序贯诊断基准(SD Bench)。该基准将304个近期NEJM病例转化为逐步诊断接触,使模型或人类医生能够迭代提问和订购测试。随着新信息的出现,模型或临床医生更新其推理,逐渐缩小到最终诊断。然后可以将该诊断与NEJM发布的黄金标准结果进行比较。
每个请求的检查也会产生(虚拟)成本,反映现实世界的医疗保健支出。这使我们能够在两个关键维度上评估性能:诊断准确性和资源支出。您可以观看此短视频,了解AI系统如何应对这些挑战之一。
获得正确诊断
我们对一套全面的前沿生成式AI模型与304个NEJM病例进行了评估。测试的基础模型包括GPT、Llama、Claude、Gemini、Grok和DeepSeek。
除了基础基准测试外,我们还开发了微软AI诊断协调器(MAI-DxO),该系统旨在模拟具有不同诊断方法的虚拟医生团队,共同解决诊断病例。我们认为,协调多个语言模型对于管理复杂的临床工作流程至关重要。协调器可以比单个模型更有效地整合多样化的数据源,同时提高安全性、透明度和对不断变化的医疗需求的适应性。这种与模型无关的方法促进了可审计性和弹性,这是高风险、快速变化的临床环境中的关键属性。
图1.
MAI-Dx协调器将任何语言模型转变为虚拟临床医生团队:它可以提出后续问题、订购测试或提供诊断,然后运行成本检查并验证其自身推理,再决定是否继续。
MAI-DxO提高了我们测试的每个模型的诊断性能。表现最佳的设置是MAI-DxO与OpenAI的o3配对,它正确解决了85.5%的NEJM基准病例。作为比较,我们还评估了21位来自美国和英国的执业医生,每位都有5-20年的临床经验。在相同任务上,这些专家在已完成病例中的平均准确率为20%。
MAI-DxO是可配置的,使其能够在定义的成本约束内运行。这允许明确探索诊断决策中固有的成本-价值权衡。如果没有此类约束,AI系统可能会默认订购所有可能的测试——无论成本、患者不适或护理延迟如何。重要的是,我们发现MAI-DxO比医生或我们测试的任何单个基础模型都提供了更高的诊断准确性和更低的总体测试成本。
AI驱动的诊断代理按准确率和每例平均诊断测试成本的比较。表现最佳的代理出现在左上象限,反映出更高的准确率和更低的成本。下方虚线代表最佳基础模型的性能范围。紫色线追踪MAI-DxO在不同配置下的性能。红色十字表示21位执业医生的平均性能。
下一步是什么?
医生通常以其专业知识的广度或深度为特征。全科医生,如家庭医生,管理跨越年龄和器官系统的各种疾病。专科医生,如风湿病学家,则深入关注单一系统、疾病领域甚至特定疾病。然而,没有任何一位医生能够涵盖NEJM病例系列的全部复杂性。另一方面,AI不受此权衡的限制。它可以融合专业知识的广度和深度,在临床推理的许多方面展现出超越任何个体医生的临床推理能力。
这种推理有潜力重塑医疗保健。AI可以赋能患者自我管理常规护理方面,并为临床医生提供复杂病例的高级决策支持。我们的研究还表明,AI可以减少不必要的医疗保健成本。美国医疗支出接近美国GDP的20%,其中高达25%据估计是浪费的——因为对患者结果影响甚微。
当然,我们的研究有重要的局限性。尽管MAI-DxO擅长应对最复杂的诊断挑战,但仍需要进一步测试以评估其在更常见、日常病例表现上的性能。我们研究中的临床医生在没有同事、教科书甚至生成式AI的情况下工作,而这些可能出现在他们的正常临床实践中。这样做是为了能够与原始的人类表现进行公平比较。
这项工作的创新之处在于对成本的关注。虽然现实世界的医疗成本因地理位置和系统而异,并包括我们未考虑的许多下游因素,但我们对所有评估的代理和医生应用了一致的方法,以帮助量化诊断准确性和资源使用之间的高层次权衡。
对我们来说,这只是第一步。我们对前方的机遇充满热情。在生成式AI能够安全负责任地部署到整个医疗保健领域之前,仍存在重要挑战。我们需要从真实临床环境中获取证据,以及适当的治理和监管框架,以确保可靠性、安全性和有效性。这就是为什么我们正在与领先的健康组织合作,严格测试和验证这些方法——在更广泛推广之前的必要步骤。
我们与合作伙伴一起坚信,医疗保健的未来将通过将人类专业知识和同理心与机器智能的力量相结合来塑造。我们期待采取下一步措施,使这一愿景成为现实。
进一步信息
SD Bench和MAI-DxO仅是研究演示,目前不可作为公共基准或协调器使用。您可以在与本博客同时发布的预印本论文中找到有关基础方法和结果的更多详细信息。我们正在将这项工作提交进行外部同行评审,并积极与合作伙伴合作,探索将SDBench作为公共基准发布的潜力。
致谢
我们感谢NEJM Group允许我们在本博客文章报告的研究中使用NEJM病例。这里描述的研究得益于许多人的见解。我们感谢arXiv论文上列出的作者以及MAI的更广泛团队。我们还感谢微软内外的其他同事分享他们的见解,包括Bryan Bunning、Nando de Freitas、Andrija Milicevic、Hoifung Poon、David Rhew、Karén Simonyan、Eric Topol和Jim Weinstein。Gianluca Fontana和Kevin Hawkins(Prova Health)在卫生经济学和结果部分提供了支持。
问答
这个AI在医疗保健中使用安全吗?
这里展示的工作尚未获得临床使用批准,只有在经过严格的安全测试、临床验证和监管审查后才会获得批准。目前,这代表了令人兴奋的初步研究。在任何将此技术部署到现实世界的计划中,我们的承诺是确保任何医疗保健解决方案都基于临床实践、道德设计并透明沟通,以保证安全、信任和质量。
AI会取代医生吗?
虽然AI正成为医疗保健中的强大工具,但我们执业临床医生团队认为AI代表了对医生和其他医疗保健专业人员的补充。虽然这项技术正在迅速发展,但他们的临床角色远不止于做出诊断。他们需要以AI无法做到的方式应对模糊性并与患者及其家人建立信任。临床角色将随着AI而演变,使临床医生能够自动化常规任务、更早识别疾病、个性化治疗计划,并可能完全预防某些疾病。对于消费者,AI将提供更好的自我管理和共同决策工具。
什么是AI协调器?
在生成式AI的背景下,协调器就像一个数字指挥家,帮助协调完成复杂任务的多个步骤。在医疗保健中,考虑到每个决策的高风险,协调的作用至关重要。我们的协调器位于底层语言模型之上,确保诊断过程中的每个点都得到系统处理,降低未来错误的风险,并提供必要的稳定性、一致性和透明度,最终赢得用户的信任。
为什么你们关注成本?
我们最初想了解AI是否只是通过要求过度诊断检查来达到正确诊断。我们发现,我们的协调器能够以更低的测试成本达到正确答案。从某种意义上说,这并不奇怪,因为诊断过度检查已被认为是一个普遍存在的挑战,每年在美国造成数百万次不必要的测试。这项研究表明,AI为临床医生和消费者创造了机会,能够以更快、更准确的方式诊断,同时降低成本。
【全文结束】


