2026年必知的顶级医疗AI模型 - AI与医疗健康

虽然生成式AI凭借ChatGPT和Midjourney等工具激发了公众想象力，但医疗AI的稳步进展正在悄然改变医疗保健。这些发展虽不总是成为头条新闻，却在药物发现、疾病诊断和患者护理方面带来了切实的改变。

医疗AI研究已在幕后发展了十多年。AlphaFold的蛋白质结构预测获得了诺贝尔化学奖。英矽智能的ISM001-055成为首个针对AI发现疾病靶点的AI设计药物，在IIa期临床试验中显示出积极结果。目前，71%的非联邦急性护理医院已在电子健康记录中集成了预测性AI。

当前形势的有趣之处在于该领域已分裂为两个阵营。一方面，Med-PaLM 2等研究模型在医疗基准测试中展现出专家级表现，但缺乏FDA批准和临床部署。另一方面，微软的DAX Copilot等工具通过专注于环境临床文档，已在150多家医疗系统中实现主流应用。这种战略选择避开了监管障碍，同时为花费过多时间处理文书工作的医生提供了可衡量的价值。

"在基准测试中表现良好"与"实际在医院部署"之间的差距，现已成为医疗AI领域最重要的故事之一。以下是当前重塑医疗保健的顶级技术突破。

关键要点

以下是从近期医疗AI发展中最重要的内容：

AlphaFold 3获得诺贝尔化学奖，现可预测蛋白质、DNA、RNA、小分子和离子之间的相互作用——加速药物发现和疫苗开发。
医疗大语言模型面临部署差距：高基准测试分数并未转化为临床应用。微软DAX Copilot等文档工具已在150多家医疗系统中实现应用，而诊断AI仍主要处于研究阶段。
英矡智能的ISM001-055成为首个针对AI发现疾病靶点的AI设计药物，显示出积极的IIa期试验结果，从项目启动到临床前候选药物的开发时间缩短超过60%。
Nova-3 Medical等专业语音转文本模型实现3.44%的词错误率，使准确的临床文档记录日益可行。
首个完全由AI发现的药物获得FDA批准预计将在未来几年内实现，前提是临床试验成功。

AlphaFold：从重大挑战到诺贝尔奖

AlphaFold可能是科学史上最重大的AI成就之一，却仍鲜为大众所知。该技术经过多代发展，最终成为一项突破性技术，加速了生物和医学领域的研究。

蛋白质结构为何重要

在深入探讨AlphaFold工作原理之前，先了解蛋白质结构预测为何如此重要。

蛋白质就像人体内的微型机器，执行着超越"健康"范畴的重要工作——从构建肌肉、抵抗感染到消化食物。蛋白质要正常工作，必须具有正确的形状或结构。可以想象成一把钥匙插入锁中。如果钥匙（蛋白质）形状不正确，它就无法工作。蛋白质形成正确形状的过程称为"蛋白质折叠"。

在AlphaFold出现之前，确定蛋白质结构需要昂贵、耗时的实验，如X射线晶体学和冷冻电子显微镜。单个结构的确定可能需要数年时间和数百万美元。

AlphaFold 3：全新架构

AlphaFold 3为其开发者赢得了诺贝尔化学奖。该系统采用新型基于扩散的架构，超越了仅预测蛋白质的局限——现在可以模拟蛋白质、DNA、RNA、小分子和离子之间的相互作用。

据《麻省理工科技评论》报道，与前代相比，AlphaFold 3能预测"生物生命的更大范围"。该系统在预测蛋白质-配体复合物方面表现出显著更高的准确性，并在蛋白质-核酸相互作用方面表现出卓越性能。

该技术生成多序列比对以提供进化背景，然后通过扩散生成模型处理这些信息，预测分子相互作用并确定氨基酸与其他生物分子之间的关系。

实际影响

AlphaFold蛋白质结构数据库现已包含超过2.14亿个预测的蛋白质结构——几乎涵盖了科学界已知的所有编目蛋白质。这一资源免费且公开可获取。

研究表明，AlphaFold正在加速而非取代实验性结构生物学。使用AlphaFold的研究人员向蛋白质数据库提交的蛋白质结构数量增加了约50%。AlphaFold的预测结构帮助研究人员理解X射线晶体学和冷冻电子显微镜生成的原始数据，展示了与实验技术的实际整合。

当前应用涵盖药物发现（预测结合位点和相互作用能量）、疫苗开发（模拟抗原-抗体相互作用）、疾病研究（探索与阿尔茨海默病相关的蛋白质构象变化和癌症相关蛋白质结构）以及蛋白质工程（支持设计具有定制功能的新型蛋白质和酶）。

尽管如此，AlphaFold仍有局限性。它在预测动态构象变化方面存在困难，并可能在无序蛋白质区域"产生幻觉"——生成可能不符合生物现实的预测。

Med-PaLM 2：强劲性能，无临床部署

谷歌的Med-PaLM 2代表了重要的基准测试成就，但仍是一种未经临床授权的研究工具——无FDA监管批准、无确认的医院部署，且存在需进一步评估的安全隐患。

基准测试性能

Med-PaLM 2在MedQA基准测试中达到86.5%的准确率——远超医疗执照考试所需的60%及格门槛。该模型在PubMedQA测试中也获得了81.8%的分数，该测试评估生物医学研究问题理解能力。

在一项使用真实医疗问题的试点研究中，专家在九项评估标准中的八项上，65%的时间更倾向于Med-PaLM 2的回答而非普通医生的回答。这一表现不仅限于多项选择题，还包括对长篇回答的准确性、指令遵循性和潜在危害风险的评估。

Med-PaLM架构基于谷歌的PaLM大型语言模型，通过医疗问答数据集进行微调。

现实差距

尽管分数如此，基准测试性能与临床实用性之间仍存在差距。独立研究发现该模型容易受到对抗性提示的影响，可能产生不安全的医疗建议。

一项对83项研究的系统性综述发现，生成式AI模型在不同临床环境中的平均诊断准确率为52.1%，且AI与医生之间总体上无显著性能差异。该综述指出，虽然AI模型在受控测试环境中表现良好，但将这些结果转化为真实世界临床实践仍然具有挑战性。

实际部署情况

当研究人员争论诊断AI时，环境文档工具已实现主流应用。

微软的Nuance DAX Copilot现已在150多家医疗系统中运行，与Epic电子健康记录系统集成。它不尝试进行诊断，而是听取医生-患者对话并起草临床笔记。

结果是可测量的。凯撒医疗集团的同行评审研究发现，AI记录员在250万次患者接触中为医生节省了约15,791小时的文档时间——相当于1,794个八小时工作日。该技术显著减少了"睡衣时间"（下班后的文档工作），同时改善了医患互动。

值得注意的模式是：在医疗AI领域，专注于工作流程整合和可测量时间节省的工具实现了应用。而那些为基准测试性能优化的工具往往仍停留在研究阶段。

Nova-3 Medical：临床环境中的精准转录

任何尝试转录医疗对话的人都知道这一挑战。没有专业模型，语音识别软件会将"心肌梗死"（心脏病发作）转录为"我的旧车故障"。在另一个例子中，"表皮松解性大疱症"（一种罕见皮肤病）变成了一些难以识别的内容。这些错误在休闲场合可能很有趣，但在医疗环境中，它们可能导致危险的误解。

我们推出了Nova-3 Medical来解决这个问题，在医疗转录基准测试中实现了3.44%的中位词错误率——比次优竞争对手提高了63.7%。

医疗环境中精准为何重要

通用语音转文本通常对英语转录的错误率为7-20%。在医疗环境中，"相当好"与"高度准确"之间的差异就是有用文档记录与潜在错误之间的差别。

Nova-3 Medical的3.44%词错误率代表与基线模型相比错误率降低了约50-80%。实际表现与基准测试确实存在差异——研究表明，由于背景噪音、说话者差异和多个说话者，基准测试到实际应用的性能下降2.8-5.7倍。安静环境中的医疗听写错误率约为8.7%，而多人对话的临床对话错误率可能超过50%。当前医疗转录系统在临床文档中的准确率达到94-96%——接近修正变得偶尔而非持续的水平。

当前部署情况

该系统在符合HIPAA（健康保险流通与责任法案）的环境中部署，具有加密和VPC或本地选项。确认的医疗部署包括TORTUS，它与电子健康记录系统集成用于患者对话文档记录，以及Phonely AI，它自动化患者互动和文档记录流程。

研究记录显示，与手动流程相比，文档错误减少了47%，在患者接触过程中捕获的相关临床发现增加了22%。

DiffDock：前景研究，有限实用

麻省理工学院的DiffDock将扩散模型——与DALL-E和Midjourney等图像生成器背后相同的技术——应用于分子对接。该方法生成多个可能的结合配置及其不同概率，而非预测单一"正确"姿态。

DiffDock在基准数据集上实现了38%的成功率，速度比传统方法提高3-12倍。

局限性

根据分析深度学习对接方法的研究，当蛋白质上的结合位点已知时——这是药物发现中的常见情况——传统对接方法实际上优于DiffDock。这将其实际应用限制在结合位置未知的"盲对接"场景中。

《自然通讯》杂志上的研究显示，Umol等更新方法的成功率达到45%，优于DiffDock的基线。

对同行评审文献的广泛搜索发现，制药公司没有记录DiffDock的实施案例——没有案例研究、实施报告或权威来源中的验证用例。这是一项有趣的研究，但已发表论文与制药应用之间的差距仍然很大。

Exscientia：从初创公司到Recursion收购

英国AI药物设计公司Exscientia以6.88亿美元被Recursion收购。该交易将Recursion的生物学和转化能力与Exscientia的化学设计和自动化合成平台相结合。

当前管线状态

Exscientia的主导资产GTAEXS617（一种CDK7抑制剂）正在进行针对晚期实体瘤的I/II期ELUCIDATE试验，计划扩展到HR+/HER2-乳腺癌。

他们穿透大脑的LSD1抑制剂EXS74539正向神经系统疾病的新药临床试验申请(IND)提交迈进。

重要背景：没有Exscientia原研药物接近监管批准。GTAEXS617仍处于I/II期，假设一切顺利，潜在批准仍需数年。这一时间线在该领域很典型——AI可能加速药物发现，但临床试验仍需其标准时长。

战略定位

Recursion收购创造了双方描述的"技术优先、端到端药物发现平台"。与赛诺菲的合作已通过两个额外发现项目产生了1500万美元的里程碑付款。综合平台是否能兑现承诺仍有待观察。

英矡智能：首个在人体中验证的AI药物

英矡智能宣布ISM001-055在特发性肺纤维化方面显示出积极的IIa期试验结果。这是首个针对AI发现疾病靶点的AI设计药物在人体中显示疗效——靶点和药物均来自AI系统。

试验结果

IIa期试验持续12周。最高剂量组显示用力肺活量从基线平均改善98.4毫升，而安慰剂组下降62.3毫升——总治疗差异约为160毫升。

根据主要研究者说法，这表明该药物可能不仅减缓疾病进展，还可能阻止甚至逆转疾病。

平台与合作伙伴关系

ISM001-055是一种首创小分子抑制剂，靶向TNIK（TRAF2和NCK相互作用激酶）。英矡智能的Pharma.AI平台处理了整个过程：PandaOmics从多组学数据中识别靶点，Chemistry42设计分子，inClinico预测临床试验结果。

与传统方法相比，开发从项目启动到临床前候选药物的时间缩短了60%以上。该平台已引起关注——全球前20大制药公司中有13家现已与英矡智能签订软件许可协议，累计交易价值超过20亿美元。英矡智能与齐鲁制药的1.2亿美元合作将带来心血管代谢疗法的开发。

FDA框架：批准前的规则

FDA发布了首个解决药物开发中AI问题的框架："支持药物和生物制品监管决策的AI使用考虑因素"。

指南涵盖内容

FDA指南建立了针对非临床、临床、上市后和制造阶段AI模型的基于风险的可信度评估。该指南基于对500多份含AI组件的申报材料的分析，代表该机构首个正式解决药物开发中人工智能的框架。

当前状态

尽管FDA在2024年批准了50种新药，但没有一种被明确标识为AI发现药物。当前时期的特点是监管框架建立和临床验证，而非市场批准。

基于典型的临床开发时间线，假设试验结果成功，首个完全由AI发现的药物获得FDA批准预计将在未来几年内实现。

AI癌症疫苗：临床验证

由AI驱动的个性化癌症疫苗已获得临床验证，多项II/III期试验显示了生存益处。据《自然评论癌症》报道，基于mRNA的新抗原疫苗在早期试验中成功激活了约半数患者的肿瘤特异性免疫反应，有反应者显示出显著改善的无复发生存期。

潜在影响

初步临床试验数据分析表明，mRNA疫苗接种可能在诊断后三年内避免单一美国年度队列中非小细胞肺癌、胰腺癌、肾细胞癌或黑色素瘤患者约49,000例死亡。这一预测表明，与标准疗法相比，总体生存期、无复发生存期和无进展生存期有显著改善。

首个AI生成疫苗数据

关于AI生成个性化癌症疫苗的首份同行评审临床数据在ASCO（美国临床肿瘤学会）上公布。研究人员描述了接受EVX-01治疗的黑色素瘤患者的疫苗诱导免疫反应，EVX-01是由Evaxion Biotech开发的AI生成个性化癌症疫苗——代表了完全由AI设计的新抗原在临床实践中的首次有记录的实际应用。

AI如何实现个性化

癌症疫苗开发中已出现四种关键AI应用：

新抗原发现：机器学习根据预测的免疫原性和HLA结合亲和力识别和排序肿瘤特异性抗原靶点
密码子优化：AI修改编码序列以提高蛋白质表达，同时保持抗原结构
UTR序列生成：序列的自动设计以增强翻译效率和mRNA稳定性
完整疫苗设计：集成平台优化修饰、递送系统和给药策略

进行中的临床试验

针对黑色素瘤、肺癌、胰腺癌、乳腺癌和其他肿瘤类型的mRNA个性化癌症疫苗临床试验正在进行。在一项IIb期黑色素瘤试验中，接受个性化mRNA新抗原疫苗加帕博利珠单抗治疗的患者，与仅接受帕博利珠单抗相比，复发或死亡风险降低了49%——表明个体化疫苗与检查点抑制剂联合使用时可显著改善结果。

这对医疗技术意味着什么

医疗AI继续在多个方面取得进展——从为医生节省数千小时的文档工具到在临床试验中验证的AI设计药物。模式很清晰：专注于工作流程整合和可量化时间节省的技术比那些纯粹为基准测试性能优化的技术更快实现应用。

研究成就与临床部署之间存在持续的差距。高基准测试分数不能保证实际使用，而具有更适度技术主张的文档工具在主要医疗系统中运行，并得到同行评审的临床验证。

医疗AI的未来取决于弥合这一差距。随着FDA新框架的出台，药物开发中的AI正从实验性转向成熟实践。基础设施正在发展——大多数非联邦急性护理医院已部署预测性AI，表明组织已准备好采用基于AI的临床工具。

就医疗AI整体而言，挑战仍然是将研究表现转化为安全、经验证的临床工具。已取得显著成就——从AlphaFold获得诺贝尔奖认可到英矡智能的临床验证——但在广泛临床部署之前仍需大量工作。预计在未来几年内将首次批准完全由AI发现的药物。从实验室成功到患者受益的道路仍然漫长，需要建立监管框架、安全验证、完成临床试验和医疗系统整合。

常见问题解答

AI医疗转录与通用语音识别有何不同？

医疗转录需要处理专业术语、具有不同音质的多个说话者以及通用模型忽略的临床背景。Nova-3 Medical等专业模型专门在医疗对话上训练，学习药物名称、解剖术语和诊断语言，否则会被转录为语音相似但临床错误的短语。当文档错误可能影响患者护理时，90%和96%准确率之间的差异至关重要。

为何AI发现的药物尚未获得FDA批准？

无论候选药物如何识别，药物开发时间线都从发现到批准延长10-15年。首批AI设计药物最近才进入临床试验，这意味着它们仍在进行II/III期试验。FDA框架建立了如何评估AI的标准，但并未加速临床试验要求——安全性和有效性仍需在人体中证明。

医院能否将Med-PaLM 2或类似医疗大语言模型用于患者护理？

目前不行。Med-PaLM 2等医疗大语言模型缺乏用于临床决策的FDA授权。部署AI的医疗机构专注于低风险应用：环境文档、行政任务自动化和临床工作流程支持。诊断推理AI需要目前对基于大语言模型的系统尚不存在的监管批准。

AlphaFold为何对药物发现特别有用？

AlphaFold预测药物分子可能与蛋白质靶点结合的位置及其相互作用强度——这些信息以前需要昂贵的实验室实验。药物开发者使用这些预测来确定要合成和测试的化合物优先级，可能将早期发现时间线从数年缩短至数月。

【全文结束】