微软的AI工具可能正在改变医疗保健行业,至少从它应对一些最棘手医学挑战的表现来看是如此。
在一项新的实验中,微软的AI诊断协调器(Microsoft AI Diagnostic Orchestrator,简称MAI-DxO)成功诊断了来自《新英格兰医学杂志》(New England Journal of Medicine, NEJM)的85.5%复杂病例。该杂志以其极具挑战性的案例研究而闻名。
这款工具通过将大型语言模型转化为一个虚拟的临床医生团队来运作。它能够像医生团队一样,在病例进展过程中提出后续问题、安排测试并发布诊断结果。
当与OpenAI的o3模型结合使用时,MAI-DxO表现出最佳性能,远远超过了来自美国和英国的21名真实医生的结果。尽管这些医生拥有5到20年的经验,但在相同基准测试中的平均准确率仅为20%。
为了正确评估这一成果,微软创建了一个名为“顺序诊断基准”(Sequential Diagnosis Benchmark,简称SD Bench)的新基准,使用了304个NEJM病例。这种设置允许AI模型像临床医生一样逐步审查症状、请求更多数据,并在每一步缩小诊断范围。
微软表示,其潜在影响是巨大的。这些工具可以帮助临床医生应对复杂的诊断情况,甚至可以帮助患者自行处理常规护理。但公司也承认这只是一个起点。
这项研究需要在真实的临床环境中进行测试,并建立适当的监管框架和监督机制。微软目前正在与医疗机构合作,以实现这一目标。
(全文结束)


