在一项新的研究中,微软的AI驱动诊断系统在解决最具挑战性的医疗案例时,表现优于经验丰富的医生,不仅速度更快,而且成本更低,准确性更高。
研究:《语言模型的顺序诊断》
图片来源:metamorworks/Shutterstock.com
重要通知: arXiv发布的初步科学报告未经同行评审,因此不应视为结论性内容,也不应指导临床实践或健康相关行为,或被视为已确立的信息。
最近发布在arXiv预印本服务器上的一项研究比较了AI系统与临床医生在复杂病例中的诊断准确性和资源消耗情况。微软AI团队展示了人工智能在医学中的高效应用,以应对医生难以解读的诊断挑战。
顺序诊断与语言模型
通常,医生通过临床推理过程对患者进行诊断,这涉及逐步、迭代的提问和测试。即使初始信息有限,临床医生也能通过询问患者并确认生化测试、影像学、活检及其他诊断程序来缩小可能的诊断范围。
解决复杂病例需要广泛技能,包括确定最关键的后续问题或测试、注意测试成本以防止增加患者负担,以及识别证据以做出自信的诊断。
多项研究已经证明了语言模型(LMs)在医学执照考试和高度结构化的诊断小插图中的效率提升。然而,大多数LMs的表现是在人工条件下评估的,这与现实世界的临床环境大相径庭。
大多数用于诊断评估的LMs模型基于多项选择测验,诊断来自预定义的答案集。减少的顺序诊断周期增加了夸大静态基准模型能力的风险。此外,这些诊断模型存在无差别测试订购和过早诊断关闭的风险。因此,迫切需要一种基于顺序诊断周期的AI系统,以提高诊断准确性并降低测试成本。
关于研究
为了克服上述LMs模型在临床诊断中的缺点,科学家们开发了顺序诊断基准(SDBench),作为一个互动框架来评估诊断代理(人类或AI)通过真实的顺序临床遭遇。
为了评估诊断准确性,本研究利用了《新英格兰医学杂志》(NEJM)每周发布的病例,这是世界领先的医学期刊。该期刊通常以详细、叙述的形式发布来自麻萨诸塞州总医院的患者病例记录。这些病例是临床医学中最具诊断挑战性和智力要求的,通常需要多名专家和诊断测试来确认诊断。
SDBench将2017年至2025年NEJM临床病理会议(CPC)中的304个病例重新构建为逐步诊断遭遇。医疗数据涵盖了从临床表现到最终诊断的内容,从常见病症(如肺炎)到罕见疾病(如新生儿低血糖)。使用互动平台,诊断代理决定要问哪些问题、订购哪些测试以及何时确认诊断。
信息看门人是一个语言模型,仅在明确询问时有选择性地披露综合病例文件中的临床细节。它还可以提供原始CPC叙述中未描述的测试的一致案例信息。在根据看门人提供的信息做出最终诊断后,临床评估的准确性被测试与真实诊断进行对比。此外,还估计了所有请求的诊断测试在现实世界诊断中的累计成本。通过评估诊断准确性和成本,SDBench表明我们距离高质量护理和可持续成本有多近。
研究发现
本研究分析了所有诊断代理在SDBench上的表现。AI代理在所有304个NEJM病例上进行了评估,而医生则在56个测试集病例的一个保留子集中进行评估。本研究观察到,AI代理在这个子集上表现优于医生。
在美国和英国执业的医生,具有中位数12年的临床经验,在SDBench上达到了20%的诊断准确性,每例平均成本为2,963美元,突显了基准的固有难度。医生每例平均花费11.8分钟,提出6.6个问题和7.2个测试。GPT-4o在诊断准确性和成本方面均超过了医生。市面上现成的模型提供了不同的诊断准确性和成本。
本研究还介绍了MAI诊断协调器(MAI-DxO),这是一个与医生共同设计的平台,其诊断效率高于人类医生和商业语言模型。与商业LMs相比,MAI-DxO表现出更高的诊断准确性,并显著降低了超过一半的医疗成本。例如,现成的O3模型实现了78.6%的诊断准确性,花费7,850美元,而MAI-DxO以仅2,397美元实现了79.9%的准确性,或以7,184美元实现了85.5%的准确性。
MAI-DxO通过模拟具有不同角色的虚拟“医生代理”小组,包括假设生成、测试选择、成本意识和错误检查,实现了这一点。与基线AI提示不同,这种结构化的协调允许系统进行迭代和高效的推理。
MAI-DxO是一种模型无关的方法,已在各种语言模型中显示出准确性提升,而不仅仅是O3基础模型。
结论和未来展望
本研究的发现表明,当引导AI系统进行迭代思考和审慎行动时,它们具有更高的诊断准确性和成本效益。SDBench和MAI-DxO为在现实约束下推进AI辅助诊断提供了实证基础。
未来,MAI-DxO必须在临床环境中进行验证,其中疾病流行和表现频率如同每天发生一样频繁,而不是罕见事件。此外,还需要包含超过304个病例的大规模互动医学基准。结合视觉和其他感官模态,如成像,可以在不牺牲成本效益的情况下提高诊断准确性。
然而,作者指出了一些重要的局限性。NEJM CPC病例因其难度而被选中,并不代表日常临床表现。研究没有包括健康患者或测量假阳性率。此外,诊断成本估计基于美国定价,可能在全球范围内有所不同。
这些模型还在保留的2024年至2025年的测试集上进行了测试,以评估泛化能力和避免过度拟合,因为许多这些病例是在大多数模型训练截止日期之后发布的。
本文还提出了一个更广泛的问题:我们应该将AI系统与个别医生还是整个医疗团队进行比较?由于MAI-DxO模仿多学科协作,这种比较可能更接近团队护理而非个人实践。
尽管如此,研究表明,像MAI-DxO这样的结构化AI系统有一天可能会支持或增强临床医生,特别是在专科医生获取有限或昂贵的情况下。
(全文结束)


