人工智能如何为科学家指明新方向并发现新型药物靶点 - AI与医疗健康

这篇文章是关于我们的科学家如何利用并开发人工智能工具进行生物医学研究的系列报道之一。

大脑细胞如何随年龄变化？当人们服用新药时，肝细胞会受到什么影响？吸烟数十年后，肺细胞会发生什么变化？

这些关于细胞行为的基本问题的答案，对于预防疾病和开发新药具有直接的应用价值。为了找到答案，科学家通常会设计活细胞实验，调整细胞的DNA或环境，观察会发生什么。

这种实验过程已经彻底改变了我们对人类生物学和医学的理解。但这个过程也很缓慢、昂贵，且难以扩展到捕捉生命的真正复杂性。

毕竟，影响细胞行为的基因并非孤立工作，而是通过与我们基因组中数千个其他基因的相互作用来实现的。在实验室中绘制这些大型基因网络是一项令人难以承受或不可能完成的任务，因为要完全理解所有基因如何相互作用，科学家需要测试天文数字般的基因组合。

现在，Gladstone研究所研究员克里斯蒂娜·西奥多里斯（Christina Theodoris）博士正在利用人工智能（AI）来彻底改变科学家研究这些关于身体内部运作的关键问题的方式。她正在开发人工智能模型，可以预测细胞及其基因在不同情况下的行为——例如在疾病、发育或衰老过程中。

她首先设计了Geneformer，这是世界上第一个可以预测改变基因活性将如何影响单个细胞的基础模型。这个人工智能模型已经揭示了心脏病的新药物靶点。最近，她推出了另一个名为MaxToki的模型，可以预测人体各部位细胞在衰老过程中的变化以及如何减缓这一过程。

"当人们谈论AI的力量时，他们通常将其视为未来的事情——但它已经发生在今天，"Gladstone研究所所长Deepak Srivastava博士说，"在Gladstone，我们正在开发强大的AI工具来解决那些迄今为止无法治愈的疾病。"

"当人们谈论AI的力量时，他们通常将其视为未来的事情——但它已经发生在今天。"

——Deepak Srivastava博士

正如ChatGPT通过分析数百万本书籍和网站学习人类语言一样，Geneformer和MaxToki通过分析不同人类细胞中数百万次的基因活性记录，学习了人类基因的语言。

有了这些新工具，西奥多里斯和她的同事们可以在计算机上运行数十亿次虚拟实验，在进入实验室之前缩小最有希望的疾病治疗靶点范围。与在实验室工作台所需数年或数十年的时间相比，这些新实验只需数小时或数天。

"通过利用这些计算机模型更快地确定最有希望的靶点，我们不仅可以加速研究速度，还可以将成功率更高的疗法推进到临床试验，"西奥多里斯说。

西奥多里斯（图左与实验室的Bumjoon Kim交谈）和她的团队正在构建大规模基础模型，这些模型经过如此广泛和多样化的生物数据训练，它们对细胞工作原理有了基本理解。这些AI模型然后可以应用于回答各种问题。

教AI细胞的语言

大多数人熟悉大型语言模型，如ChatGPT，它们掌握了人类语音和写作的模式。例如，ChatGPT已经学会"花生酱和"通常后面跟着"果冻"。因此，当提到花生酱时，它可以预测下一个词是果冻，并将"花生酱和卡车"标记为奇怪的组合。

正如ChatGPT从根本上改变了互联网用户搜索信息的方式，西奥多里斯的Geneformer改变了科学家在工作中使用AI的方式。

Geneformer是一个基础模型，这是一种经过大规模训练以识别海量数据集中模式的大型AI程序，建立可以应用于许多问题的通用知识。正如ChatGPT学会了将花生酱与果冻关联起来一样，Geneformer学会了识别哪些基因总是同时开启。而且，就像"花生酱和卡车"的不匹配一样，它可以发现基因活性的模式，这些模式是疾病的警示信号。

"Geneformer学会了识别哪些基因需要注意，以预测其他基因的水平，因此它可以识别控制整个网络的最重要基因，"西奥多里斯解释道，"当疾病发生问题时，这些是我们可以靶向的基因，使细胞恢复健康。"

Geneformer于2021年开发，远早于ChatGPT发布，最初是在3000万个基因在单个细胞中上调和下调的示例上进行训练的。这些数据来自公共数据库和科学联盟，涵盖广泛的人体组织、发育阶段和疾病——基本上是所有存在基因组数据的内容。

如今，它已经在1亿多个示例上进行了训练，科学家们继续看到模型预测的改进，这为这些方法的未来提供了令人鼓舞的迹象，因为可用数据越来越多。

"我们训练了一个大规模模型，以获得对基因在许多背景下如何相互作用的基本理解，我们现在可以应用它来回答各种各样的问题，"西奥多里斯说，"它作为一个通用的发现引擎。"

训练数据的庞大规模，跨越组织和背景，意味着该模型能够发现数据中的深层关系，并学习基因在许多细胞类型中行为的一般规则。它还消除了研究人员为每个关于基因功能的问题从头开始构建新AI工具的需要。

此外，Geneformer可以对它从未见过的细胞做出预测。这在科学家只能获得有限数据的情况下至关重要，无论是因为他们研究的疾病罕见，还是影响难以采样的组织（如心脏或大脑）。

西奥多里斯和她的团队——包括Alicja Brozek（左）、Abhijay Mahil（中）和Javier Gomez Ortega（右）——正在使用Geneformer在进入实验室之前，在计算机上缩小最有希望的疾病治疗靶点范围。

因此，正如您可以要求ChatGPT用莎士比亚风格写一首关于食品卡车的十四行诗——这是模型从未接触过的东西——您也可以询问Geneformer人体深处难以获取的细胞中会发生什么。

"如果你想研究这些疾病，你不会有足够的数据来训练新模型，所以你需要一个具有强大知识基础的基础模型来回答你的问题，"西奥多里斯说，"使用Geneformer，即使对于过去由于数据有限而停滞不前的疾病，我们终于可以预测治疗靶点。"

从基因预测到潜在治疗

为了测试Geneformer的效用，西奥多里斯和她的同事们使用AI模型研究心肌细胞，即心脏中的肌肉细胞。该模型识别出当受到干扰时，最可能导致细胞问题的基因。

它列出的许多基因已经与心脏病相关联，表明它准确地找出了需要关注的内容。但更重要的是，该模型正确预测这些基因在疾病背景下更为重要——失去它们造成的损害比失去大多数其他基因更大。

Geneformer还预测了从未被研究过的基因。当研究人员从实验室的心脏细胞中移除其中一个基因时，细胞无法再有力地跳动。

"令我们兴奋的是，Geneformer能够预测心脏肌肉中一个全新的关键调节因子，而这一因子在这些细胞数十年的研究中从未被描述过，"西奥多里斯说。

一旦AI模型做出预测，西奥多里斯小组的科学家就在实验室中测试它们。他们已经发现了一种治疗心肌病（一种影响心肌的疾病）的潜在新治疗策略。（图中为西奥多里斯实验室的研究生David Wen。）

接下来，研究团队要求Geneformer预测哪些基因可以通过药物靶向来恢复心肌病患者心肌细胞的功能。AI模型关注了几个基因。

在后续的实验室研究中，西奥多里斯的团队在心肌细胞中测试了这四个基因中的部分基因。其中两个导致细胞收缩强度显著提高，第三个显示出帮助细胞再次有力跳动的迹象——揭示了一种治疗心肌病的新治疗策略。

"该模型能够为我们指明新方向，以加速这种进行性疾病候选治疗靶点的发现，"西奥多里斯说。

发现驱动衰老的基因的新模型

Geneformer虽然功能强大，但有一个限制：它只看到细胞在单个时间点的状态。但细胞并不生活在静态快照中，它们是动态且不断变化的。阿尔茨海默病早期的神经元与疾病晚期的神经元不同。10岁儿童的心脏细胞与70岁老人的心脏细胞不同。

因此，西奥多里斯在Geneformer所用策略的基础上，开发了一个新的时间AI模型MaxToki，该模型包含了时间维度。

首先，她的团队在约1.75亿个单细胞的数据上训练MaxToki——这个名字取自日本的一列子弹头列车，其名字是日语中"时间"一词的同音词——然后，他们组装了1亿个细胞随时间变化的轨迹，并使用来自数千名从新生儿到90多岁健康人的细胞进一步训练该模型。

该模型学会了预测细胞如何随衰老而变化。

MaxToki，西奥多里斯实验室发布的最新AI模型，可以检测患病细胞中的加速衰老迹象——并预测哪些故障基因正在驱动这种衰老。

给定一个老化的细胞，MaxToki可以推断出哪些基因随着时间的推移而改变，导致其最终状态。而给定一个患病细胞——该模型在使用细胞轨迹进行训练时并未遇到过——它可以检测到加速衰老的迹象。

该模型在暴露于重度吸烟的个体的肺细胞和受肺纤维化影响的患者的肺细胞中检测到加速衰老的迹象。同样，在阿尔茨海默病患者的样本中，该模型在脑细胞中检测到衰老加速。有趣的是，在大脑显示阿尔茨海默病神经病理学但没有痴呆症状的人的细胞中，没有观察到这种更快的衰老，这种现象被称为阿尔茨海默病的韧性。

除了识别受衰老相关疾病影响的细胞中的衰老加速外，MaxToki还可以精确地找出这些细胞中基因网络如何出错，以及哪些故障基因可能正在驱动加速衰老。

在心肌细胞中，该模型标记了数十个预测会加速或减缓心脏衰老的基因。研究人员选择了五个以前从未与衰老或疾病相关的基因，并在实验室培养的人类心脏细胞中测试了它们。

"对我来说，MaxToki最令人兴奋的部分是它使我们能够识别对心脏衰老具有真正生物影响的新基因。"

——Christina Theodoris博士

当科学家激活每个预测会加速衰老的基因时，细胞显示出衰老的特征，包括不规则跳动以及参与炎症和能量使用的基因功能障碍（由细胞的线粒体部分控制）。

研究人员继续在活体生物中验证这些预测。事实上，当他们在年轻小鼠中激活相同的基因时，他们发现6周内心脏功能下降。该团队现在正在测试在老年小鼠中停用目标基因是否可以帮助它们对衰老的影响更具韧性。

"对我来说，MaxToki最令人兴奋的部分是它使我们能够识别对心脏衰老具有真正生物影响的新基因，"西奥多里斯说，"这可能会加速促进对年龄相关心血管衰退的韧性治疗的发现。"

一种新型工具

Geneformer和MaxToki与先前生物学AI工具的不同之处在于它们的广泛应用性。早期生物学中的机器学习模型是为单一任务构建的，例如识别显微镜下哪个细胞正在分裂，或分类组织样本是否含有癌症。每一个新问题都意味着构建一个新模型，这意味着需要足够的数据来训练它。

基础模型克服了这个问题。因为Geneformer和MaxToki从一开始就接受了如此广泛和多样化的生物数据训练，它们对细胞工作原理有了广泛、可推广的理解。这种基础知识可以在不重新开始的情况下应用于新问题。

"不必为每个问题生成新模型的灵活性真正打开了许多可能性，"西奥多里斯说，"我们现在可以将这些模型用于各种各样的问题，并模拟当我们改变基因活性时，细胞随时间会发生什么。"

西奥多里斯和她的团队开发的AI模型，如Geneformer和MaxToki，正在免费与世界各地的科学家共享，他们正在提出自己的问题，关于如何控制基因来治疗疾病。

随着Geneformer和MaxToki研究的每一种疾病，以及模型观察到的每一组新的基因数据，它们在预测生物学和为科学家指明新方向方面变得更好。

Gladstone开发的AI模型现在正免费与世界各地的研究团队共享，他们正在提出自己的问题，关于如何控制基因来治疗疾病。

"我们总是很高兴听到新的学术实验室或制药公司使用我们的模型来预测他们感兴趣疾病的治疗靶点，"西奥多里斯说，"我们希望我们的模型被广泛使用，以便它们加速发现使患者受益的新治疗。"

"像Geneformer和MaxToki这样的平台旨在克服疾病，并且比我们以前更快地做到这一点。"

——Deepak Srivastava博士

最终，拥有足够的数据，西奥多里斯相信像Geneformer和MaxToki这样的模型将揭示调控基因网络的复杂规则手册——这是当今生物学家无法理解的。

"这是我未来对这些模型看到的最大影响，"她说，"这将极大地提高我们更普遍地理解基因网络的能力，但也有助于我们操纵这些系统来设计细胞或疗法。"

对患者来说，这可能意味着通往新药的简化路径。那些难以理解的疾病——因为生物学太复杂或细胞难以获取——可能最终得到解决。

"Srivastava说："像Geneformer和MaxToki这样的平台旨在克服疾病，并且比我们以前更快地做到这一点。在Gladstone，我们将这些AI模型与我们深厚的疾病专业知识相结合，我确信我们的方法将带来治愈。"

【全文结束】

人工智能如何为科学家指明新方向并发现新型药物靶点How AI Is Pointing Scientists in New Directions and Leading to Novel Drug Targets

教AI细胞的语言

从基因预测到潜在治疗

发现驱动衰老的基因的新模型

一种新型工具