微软AI近日发布了一项新的研究成果,展示了人工智能(AI)在序列诊断中的能力,其准确性和成本效益均可媲美甚至超越医生。
微软于周一上午发布了两项重要成果:一是用于验证AI诊断工具性能的基准测试,二是展示AI能力的模型无关编排器(model-agnostic orchestrator)。微软AI首席执行官Mustafa Suleyman表示,这项研究让我们离“医疗超级智能”更近了一步。
Suleyman在接受《新闻周刊》独家采访时解释道:“理解医疗超级智能的简单方式是,它是一种比世界上最好的人类专家还要强大数倍的模型,同时兼具全球大多数专家的广度和特定领域专家的深度。”
微软推出的互动式“序列诊断基准”(Sequential Diagnosis Benchmark,简称SDBench),从《新英格兰医学杂志》(NEJM)的临床病理学会议中选取了304个复杂病例。这些病例通常难以诊断,而SDBench将其转化为逐步诊断的过程,以模拟临床决策流程。
SDBench首先向医生或AI模型提供简短的病例摘要,然后由人类或AI提出问题并要求进行测试以辅助诊断。一个“守门员模型”仅在被明确询问时才会揭示相关信息。最终诊断结果将与NEJM的金标准对比,并评估其准确性和成本。
微软的新模型无关编排器——MAI诊断编排器(MAI-DxO)在诊断准确性上达到了85.5%,超过了普通医生平均20%的正确诊断率。此外,MAI-DxO通过减少昂贵测试的使用量,将诊断成本降低了20%,并更快地得出临床决策。
由于MAI-DxO是模型无关的,因此可以跨多个AI模型家族使用,包括OpenAI、Gemini、Claude、Grok、DeepMind和Llama等。
尽管研究取得了显著成果,但仍存在局限性。参与研究的21名美国和英国医生拥有12年的中位从业经验,但在与SDBench交互时,他们无法使用搜索引擎、语言模型或其他医疗信息来源。然而,在实际医疗实践中,约五分之一的医生会使用生成式AI,十分之七的医生则依赖搜索引擎。因此,如果允许人类参与者使用常用在线资源,他们的诊断准确率可能会更高。
尽管如此,微软团队表示,这项研究“展示了当AI系统被引导以迭代思考和谨慎行动时,能够在临床护理中提高诊断精确性和成本效益”。
目前,MAI-DxO尚未投入生产环境,但其初步表现显示了巨大的潜力。该工具由微软AI健康团队开发,该团队于2024年底悄然成立,旨在创建技术和开展研究,以推动消费者健康领域的进步。
在微软AI首席执行官兼DeepMind联合创始人Mustafa Suleyman的领导下,一支由临床医生、设计师、工程师和AI科学家组成的团队展开了合作。微软AI健康副总裁Dominic King博士,同时也是前Google DeepMind和Google Health的负责人,也是该项目的核心成员。
King对《新闻周刊》表示:“我们感到自豪的有两点:一是创建了一个新基准来测试AI性能,二是证明我们开发的编排系统在此基准下表现优异。这无疑是我参与过的最令人兴奋的项目。”
每天,超过5000万次与健康相关的搜索在微软的AI消费产品中进行,包括Copilot、Bing、Edge和MSN。无论是寻找附近的急诊中心,还是试图了解持续头痛的原因,患者越来越倾向于将AI作为进入医疗系统的数字入口。这对微软等科技公司来说,确保患者获得有用答案的压力巨大。
Suleyman表示:“我们有一个叫Copilot的AI,人们会用它讨论从焦虑到孩子头痛,再到更严重疾病的种种问题。这些都是持续的对话互动。如果Copilot具备良好的诊断专业知识,就能更好地为这些人服务。”
微软AI的研究也可能为医疗行业带来益处,帮助医生更快地得出准确诊断,同时减少昂贵测试的使用。根据美国医疗研究与质量局(Agency for Healthcare Research and Quality)2023年的一项研究,每年有740万美国人在急诊室被误诊,导致每350名患者中就有1人因此死亡或永久残疾。此外,数十亿美元被浪费在不必要的测试上,这不仅推高了全国医疗成本,还加剧了医院与保险公司之间的紧张关系。
目前,微软正与多家医疗系统(未透露具体名称)及临床医生密切合作,开展更多试验,以复制MAI-DxO的初步成功。
King表示:“这是一个非常有希望的信号,但我们确实认为这是一段需要多年努力的旅程,需要整个医疗系统的广泛参与才能实现。”
(全文结束)


