从数据到发现：人工智能在癌症研究中的不断扩展作用 - AI与医疗健康

随着技术的进步，科学也在不断进步。人工智能（AI）方法已经迅速超越了数据分类和预测的范畴。这些新能力使得AI工具的使用成为重塑癌症研究和精准肿瘤学的有前途的方式。

在美国癌症研究协会（AACR）2026年年会上的一个全体会议中，研究人员分享了关于基础模型的见解，这些模型可以分析和训练大规模数据集，并为聊天机器人和AI代理提供动力，同时探讨了将AI工具引入临床的益处和挑战。

AI工具改变发现过程

二十年前，早期的经典机器学习方法使研究人员能够分析结构化的表格数据；然而，更复杂的数据需要不同的模型——深度学习能够提取此类模式。基础模型是经过大规模数据集训练的AI系统，代表了这一进化的下一步，因为它们可以被重新用于各种应用，如预测蛋白质结构、突变和基因调控。

用于理解细胞、DNA和蛋白质功能的基础模型

这促使多伦多大学的计算机科学家王博（Bo Wang）利用生成式预训练变换器（GPT）架构构建了一个用于单细胞研究的基础模型，该模型基于一个包含超过3300万个细胞的存储库。2024年，他和他的同事发布了scGPT，该模型可用于提取有关细胞和基因的生物学见解，包括细胞类型注释、遗传扰动预测、基因网络推断等。

在利用描述性数据集的基础上，王博将注意力转向构建其他模型，以从大规模因果数据集中学习并预测不可扩展的模型。2026年3月，他和他的团队在bioRxiv上发表了一篇关于X-Cell的论文，这是一个预测基因表达如何在扰动下变化的基础模型。用于训练X-Cell的数据集包含了来自七个屏幕的近2600万个扰动单细胞转录组。"这可能是目前最大的高质量全基因组扰动数据集，"王博解释道。

除了X-Cell，王博还强调了理解基础模型所教授的具体生物学的下一个层次——这需要推理能力。他们开发了BioReason，将DNA序列的基础模型与推理语言模型配对，以理解生物序列及其含义。他们对疾病通路预测进行了BioReason测试，该模型在理解生物学方面越来越好。

但蛋白质功能呢？虽然AlphaFold等其他模型解决了蛋白质结构问题，但王博希望扩展这些模型的能力，以帮助生物学家更好地注释蛋白质功能。通过对蛋白质序列、基因本体术语和语言分配类似的标记，BioReason-Pro能够预测蛋白质功能。然后，他们将其与27位受邀的蛋白质专家和生物学家进行的评估进行了对比测试。BioReason-Pro不仅在生成预测方面更快，王博还强调"80%的情况下，我们发现BioReason-Pro的预测实际上比人类注释者质量更高。"

AI代理的开发

虽然基础模型可以为ChatGPT、Gemini和Claude等大型语言模型提供动力，但它们在生物医学中的有用性仍然有限。它们严重依赖用户提示，缺乏真正的自主性，使其不太适合科学研究的迭代和复杂性。

斯坦福大学的计算机科学家Jure Leskovec一直在探索如何通过开发"副驾驶和合作科学家"来弥合这一差距，这些工具"使我们能够更好地、更快地、更可靠地进行科学研究。"他指出，研究人员当前的工作流程是分散的，科学家们阅读论文、收集数据、进行实验、订购实验室材料、分析数据并起草协议。这种速度很慢并造成了瓶颈。因此，基于基础模型构建的AI代理提供了一种简化这种复杂性的方法。

2025年夏季，Leskovec和他的同事推出了Biomni，一个开源的通用生物医学代理。"现在我们有了一个集成的生物学环境，基本上是这个用户界面，科学家可以在其中操作、上传数据、与AI代理交谈、进行头脑风暴，然后代理可以采取行动、可视化数据，并成为科学工作流程中的合作伙伴，"他解释道。通过这种方法，人类科学家仍然"掌握方向盘"，而AI则作为协作伙伴。

Biomni可以扫描科学文献，识别其他研究人员创建的相关数据库、工具和软件，扩展科学家可以 readily 访问的内容。同时，Leskovec承认大型语言模型的局限性——例如它们倾向于产生不可靠或编造的输出——并强调了诸如提出澄清问题、支持头脑风暴和提供透明的自我评估等功能。这些迭代使代理能够随着时间的推移适应研究人员的偏好。

Leskovec补充说，该系统已经在多个应用中证明是有用的，从设计质粒的克隆协议到从大数据集中生成假设。此外，他指出AI代理与机器人或机器人操作的湿实验室配合得很好。"我想在这里传达的是，科学的未来是有代理的，虚拟AI科学家将帮助我们加速生物医学研究，并帮助科学家进行日常研究，"Leskovec说。

用于临床诊断的AI模型及其可扩展性

构建基础模型以改进癌症诊断和治疗预测

哈佛医学院的计算机科学家Faisal Mahmood致力于开发整合组织病理学、基因组学、放射学和临床数据的基础模型，以改善癌症诊断和治疗预测。

他指出，要训练一个具有有用临床性能的AI模型，需要大约10,000张来自病理学的全切片图像。这促使他寻找一种更数据高效的方法。在一个实例中，Mahmood和他的同事将这种方法应用于原发部位未知的癌症，以查看是否仅从组织学图像就能预测肿瘤的起源。

Mahmood和他的团队已经开发了不同的模型：TITAN，用于将全切片图像的整体表示为单一表示；THREADS，用于对比苏木精和伊红图像与相应的基因组和分子数据。Mahmood解释说，通过能够将患者数据解析为单一向量，"然后可以用于许多不同的下游应用。"这些应用可以是预测性的，与诊断、预后和治疗反应相关。

AI在临床实施中的成功与挑战

下一个挑战是弄清楚如何将这些技术进步传递给临床中的患者。约翰斯·霍普金斯大学的计算机科学家Suchi Saria将治疗描述为反应性和随机性的，临床医生必须尽力快速收集有关患者病史的信息并提供护理。这可能导致临床医生提供的护理存在很大差异。据Saria称，主动的、基于证据的治疗是一种解决方案，而AI可以使这种治疗的交付成为可能。

理想情况下，实时临床AI工具可以增强护理团队的努力，从当前和过去的就诊中提取信息，并以一种可以吸引临床医生注意他们可能错过的东西的方式综合信息。然而，Saria指出，当前的AI工具并非为此而构建。一个例子是医院中的脓毒症预警系统；旧式的基于规则或分析的预警系统通常会错过症状，或在治疗已经开始后才标记脓毒症，因此临床采用率非常低。

研究人员如何构建临床医生会采用的更好AI工具？Saria指出，AI采用有几个不同的障碍：患者症状表现出异质性的实例，数据需要涵盖所有变化，以及确保信息实时处理并反馈给临床医生。

回到她的脓毒症例子，Saria描述了在克利夫兰诊所实施AI系统，以实现早期识别、治疗、文档记录和抽象化。这种架构使系统能够将每个患者样本路由到能够最好地解释数据信号的专业化模型。

实施后，团队看到与现有工具相比几乎60%的大幅改进，并实现了更快的识别。"患者更早接受治疗，同时我们观察到住院时间缩短和死亡率降低。因此，这非常令人兴奋，能够部署这些工具来推动行动最终会影响患者结果。"Saria补充说，她希望这项工作能够为不同人群和环境带来价值。

随着科学家构建AI工具以更好地捕捉癌症生物学，其潜力涵盖了从早期假设生成到精准肿瘤学的整个研究管道。随着持续的验证和临床整合，这些进步可能有助于重新定义癌症研究和治疗的未来。

参考文献

Cui H, et al. scGPT: Toward building a foundation model for single-cell multi-omics using generative AI. Nat Methods. 2024;21(8):1470-1480.
Wang C, et al. X-Cell: Scaling causal perturbation prediction across diverse cellular contexts via diffusion language models. bioRxiv. 2026:2026.03.18.712807.
Fallahpour A, et al. BioReson: Incentivizing multimodal biological reasoning within a DNA-LLM model. arXiv. 2025:2505.23579.
Fallahpour A, et al. BioReason-Pro: Advancing protein function prediction with multimodal biological reasoning. bioRxiv. 2026:2026.03.19.712954.
Huang K, et al. Biomni: A general-purpose biomedical AI agent. bioRxiv. 2025:2025.05.30.656746.
Ding T, et al. A multimodal whole-slide foundation model for pathology. Nat Med. 2025;31, 3749-3761.
Vaidya A, et al. Molecular-driven foundation model for oncologic pathology. arXiv. 2025:2501.16652.

【全文结束】