微软声称其新的医疗AI系统能够以比经验丰富的医生更高的准确性诊断复杂病例。在涉及《新英格兰医学杂志》304个案例的测试中,微软AI诊断协调器(MAI-DxO)搭配OpenAI的o3模型,正确解决了85.5%的病例,这一成绩是来自美国和英国的21名医生平均准确率(仅为20%)的四倍。
根据微软的说法,这些医生拥有5到20年的经验,但在测试过程中,他们无法借助同事、书籍或AI工具的帮助,从而使得AI系统的表现得以更直接地进行对比。
公司还表示,该系统完成诊断的成本低于人类医生。研究人员为每次检测分配了虚拟成本,并发现AI整体上做出了更加高效的决策。
AI系统是如何工作的?
微软所使用的系统并不仅仅是一个AI模型,而是一种数字“指挥家”。它将GPT、Gemini、Claude等不同的语言模型整合在一起,让它们像一组医生一样协同工作。这个虚拟团队会提出后续问题、安排检测,并在得出最终结论之前反复检查推理过程。
用于测试的案例均来自《新英格兰医学杂志》每周的“病例记录”系列,这些案例以复杂性和细节著称,通常需要多名专家才能解决。
为了模拟更真实的医疗流程,该系统采用了一种称为“顺序诊断”的方法。这意味着它从患者的初始表现开始,然后逐步通过安排检测或提问来缩小可能的疾病范围。AI系统的回答随后会与期刊中的实际诊断进行比较。
这对医疗科技和健康初创企业有何影响?
这种准确性和效率的水平可能会改变健康初创企业的运作方式。许多新兴健康公司可能不再需要从零开始构建自己的诊断工具,而是依靠如MAI-DxO这样的协调技术。专注于数字健康的初创企业已经在使用AI开发聊天机器人和基础症状检查工具;这一新系统可以在后台提供更高级的支持,同时仍由医生掌控全局。
新加坡一家初创企业的首席执行官Shravan Verma博士告诉《商业内幕》,虽然AI很有帮助,但它仍然需要将复杂或不确定的案例转交给真正的专业人士。他说,AI工具适用于“初级护理”,但应在必要时升级处理。这种结构非常适合希望自动化基本查询的同时保持临床安全性的初创企业。
科技领袖如比尔·盖茨也谈到了全球医生短缺的问题。他在一档播客中提到,AI可以帮助填补医疗知识的空白,让更多人无需等待亲自看诊即可获得建议和指导。
系统是否已准备好使用?
微软明确表示,该系统仍在研究阶段,尚未获批用于临床。它需要通过安全性测试、获得监管批准,并在真实医疗环境中验证后才能公开使用。
公司已经开始与医院和健康组织合作,进一步测试该系统。同时也在评估该系统在应对更常见健康问题时的表现,而不仅仅是最复杂的病例。
重要的是,微软正致力于建立信任。公司表示,任何现实世界的推广都需要明确的安全保障和完全透明。它认为AI并非人类医生的替代品,而是一个强大的助手,可以帮助医生做出更好的决策。
专家如何看待医疗科技初创企业围绕AI诊断系统的构建?
专家们分享了他们对未来医疗科技初创企业如何围绕类似微软的系统展开建设的看法。以下是他们的见解:
Nina Capital创始人兼管理合伙人Marta G. Zanchi博士
“初创企业在AI诊断的未来发展中至关重要,不仅在于开发智能算法,还在于构建使这些算法能够在真实临床环境中使用的界面和集成方案。我们亲眼见证了价值不仅通过诊断准确性释放,还通过工作流程契合度、临床医生信任以及具有高互操作性和实用性的真正健康数据流(数据流动性)得以实现。此外,这也符合医疗体系迫切需要看到的财务回报(ROI),因为目前医疗体系存在不可持续性和资源浪费的问题。
诊断协调器的兴起将带来对新基础设施的需求,例如硬件无关接口、实时数据管道、可解释性层以及针对多专业环境优化的模块化仪表板,并且需要为企业提供清晰的业务价值证明。
我们的投资组合中有几家公司正在利用AI协助病理学家和内窥镜医生。例如,德国的Mindpeak和以色列的Magentiq Eye提供支持决策的工具以提高检测和一致性的水平。奥地利的Contextflow利用AI简化复杂的放射科工作流程。西班牙的Methinks通过基于AI的神经影像解读实现卒中实时分诊,葡萄牙的Promptly则正在构建纵向数据层,以支持跨诊断和治疗的协调。尽管它们不一定起源于英国,但它们对市场有相关性。例如,Promptly已被选为威尔士NHS的一项全国性计划,而Mindpeak与包括Unilabs在内的全球实验室网络合作,后者在英国运营。
这些初创企业共同表明,AI在诊断领域的未来不会仅仅由单点算法驱动,而是围绕智能仪表板、实时接口、联邦数据访问和临床验证构建的协调器驱动——并辅以明确的财务激励措施,使它们的采用不仅是可能的,而且是医疗体系可持续性的必要条件。”
Davidovs Venture Collective联合创始人兼管理合伙人Nick Davidov
“医疗系统有很大的惯性,变化非常缓慢——出于各种好与坏的原因。我们现在看到的情况是,用于诊断的计算机视觉系统已经存在了相当长一段时间。我认为2015-16年是人们首次真正开始将计算机视觉用于X光片解读的一年。后来,人们又将其扩展到MRI和其他领域。
当前发生的变化是,临床医生正在实施决策支持系统,因为他们意识到这能使他们变得更加高效和有效。很多时候,他们可能会忽视一种只在教科书中读过一次的罕见疾病。
这些决策支持系统结合了基于计算机视觉的部分系统,或者血液检查和不同测试结果的解读部分,并试图全面审视问题。传统上,医生面临的挑战之一,尤其是在美国,就是——比如——心脏外科医生看着身体时只看到心脏和血管。对于他们来说,身体止于喉咙,因为喉咙以上是牙医的事情,对吧?因此,AI实际上可以协助这些医生从整体角度看待问题,并根据患者的整体状况进行评估。
现在,这是一个非常有风险的事情,因为AI总体上是一个‘黑箱’,我们并不清楚它是如何得出某个结论的。因此,我们的一些投资组合公司,如Qualified Health,正在专门研究这一点:使AI决策过程透明、可解释,并符合医生必须遵守的所有限制,特别是与保险索赔相关的限制。
总结一下:AI诊断解决方案已经在市场上存在了一段时间。它们已经被放射科医生和进行测试的人使用。现在,AI正朝着成为全科医生助理或决策支持系统的方向发展,吸收所有这些数据并提出想法、关注点以及后续跟进事项——同时努力在过程中保持可解释性和透明性。”
“医疗体系的一个普遍问题是医生的工作量之外还有多少行政工作。因此,除了医生花费大量时间处理这些问题外,每个医生在诊所平均还有五到六名行政人员在协助他们:医疗记录员转录内容,编码员将转录内容编码为保险索赔,处理保险索赔和拒绝的人员,以及尝试管理临床卓越性的人——比如分诊如何运作,如何分配资源,如何安排轮班。
所有这些工作都可以轻松通过AI实现自动化。Davidovs Venture Collective(DVC)支持的技术和公司——例如帮助管理收入的Collectly,减少保险拒绝次数的Red Sky Health,以及像牙医助理一样的Denti。
它们有什么共同点?它们都试图让医生回归医生的角色,把更多精力放在最重要的事情上:花时间陪伴患者,专注于治疗,并确保患者信任他们,遵循治疗计划,并能看到效果。减少填表的无意义工作,减少键盘敲击。医生不应该触碰键盘,这不是他们经过多年学习的目标。
另一件正在医疗领域发生并且应该更加普及的大事是基于价值的护理或预防性护理。保险公司花费最多的钱实际上是在生命末期治疗上,当他们试图在最后时刻挽救某人的生命时。但他们本可以通过关注预防、定期检查、心理健康、身体健康和整体健康来延缓这一时刻的到来。许多初创企业正在探索这一领域。
因此,有许多初创企业提供体检,查看你的血液检查结果,并尝试为你提供建议生活方式的建议,这些建议可能会帮助你延缓心脏病发作十年之久。”
(全文结束)


