研究人员开发了一种AI模型,能够准确预测任何人类细胞中的基因活动,从而深入了解细胞功能和疾病机制。该模型基于超过130万个细胞的数据进行训练,可以高精度地预测未见过的细胞类型的基因表达。它已经揭示了驱动儿童白血病的机制,并可能帮助探索基因组的“暗物质”,即大多数癌症突变发生的地方。
关键事实
- AI和基因活动:AI模型使用基因组和表达数据预测未见过的细胞类型的基因表达,从而深入了解细胞功能。
- 儿科癌症发现:该系统确定了特定突变如何破坏遗传性儿童白血病中的转录因子,这一发现已通过实验室实验得到证实。
- 探索基因组“暗物质”:该模型提供了研究非编码基因组区域的工具,揭示了未被探索的突变在癌症和其他疾病中的作用。
哥伦比亚大学瓦格洛斯医学院的研究人员利用一种新的AI方法,能够准确预测任何人类细胞中基因的活动,揭示了细胞内部机制。这项研究发表在最新一期的《自然》杂志上,可能会改变科学家理解和研究从癌症到遗传疾病的方式。
新的计算方法还应使研究人员开始探索基因组的“暗物质”——一个借自宇宙学的术语,指的是基因组中大部分不编码已知基因的部分,在癌症和其他疾病中的作用。Raul Rabadan教授表示:“预测性的通用计算模型可以快速而准确地揭示生物过程。这些方法可以有效地进行大规模计算实验,增强和指导传统的实验方法。”
传统生物学研究方法擅长揭示细胞如何执行其功能或对干扰作出反应,但无法预测细胞的工作方式或细胞如何应对变化(如致癌突变)。Rabadan说:“能够准确预测细胞活动的能力将彻底改变我们对基本生物过程的理解。”
近年来,随着细胞数据的大量积累和更强大的AI模型的应用,生物学正逐渐转变为一门更具预测性的科学。2024年的诺贝尔化学奖授予了在使用AI预测蛋白质结构方面取得突破的研究人员。然而,使用AI方法预测细胞内基因和蛋白质的活动仍然具有挑战性。
新AI方法预测任何细胞中的基因表达
在这项新研究中,Rabadan和他的同事尝试使用AI来预测特定细胞中哪些基因处于活跃状态。这种关于基因表达的信息可以帮助研究人员确定细胞的身份及其功能。
Rabadan说:“以前的模型通常是在特定细胞类型的数据上进行训练的,通常是癌细胞系或其他与正常细胞差异较大的样本。”他的研究生Xi Fu决定采用不同的方法,使用来自正常人体组织的数百万个细胞的基因表达数据来训练机器学习模型。
输入数据包括基因组序列和显示基因组哪些部分可访问和表达的数据。整体方法类似于ChatGPT等流行的基础模型的工作方式。这些系统使用一组训练数据来识别底层规则,然后将这些规则应用于新情况。
Rabadan说:“这里的情况也是一样的:我们在许多不同的细胞状态下学习‘语法’,然后进入特定条件——它可以是患病细胞,也可以是正常细胞类型——我们尝试看看我们能否从这些信息中准确预测模式。”
Fu和Rabadan很快召集了一个团队,包括共同第一作者Alejandro Buendia(现为斯坦福大学博士生,曾在Rabadan实验室工作)和卡内基梅隆大学的Shentong Mo,一起训练和测试新模型。经过对超过130万个细胞的数据训练后,该系统变得足够准确,可以预测从未见过的细胞类型的基因表达,结果与实验数据高度一致。
新AI方法揭示儿童癌症的驱动因素
接下来,研究人员展示了他们的AI系统的强大功能,要求它揭示患病细胞中尚未解开的生物学奥秘,特别是遗传性儿童白血病。
Rabadan说:“这些孩子继承了一个突变的基因,但不清楚这些突变具体做了什么。”他同时担任哥伦比亚大学赫伯特·欧文综合癌症中心的癌症基因组学和表观遗传学研究项目联合主任。
通过AI,研究人员预测这些突变会破坏两个不同转录因子之间的相互作用,从而决定了白血病细胞的命运。实验室实验证实了AI的预测。了解这些突变的影响揭示了驱动该疾病的具体机制。
AI可能揭示基因组的“暗物质”
新的计算方法还应使研究人员开始探索基因组的“暗物质”——一个借自宇宙学的术语,指的是基因组中大部分不编码已知基因的部分,在癌症和其他疾病中的作用。
Rabadan说:“在癌症患者中发现的绝大多数突变位于所谓的基因组‘暗区’。这些突变不会影响蛋白质的功能,因此大多未被探索。我们的想法是,使用这些模型,我们可以观察突变并照亮这部分基因组。”
目前,Rabadan正在与哥伦比亚大学及其他大学的研究人员合作,研究从脑癌到血液癌症的不同癌症类型,学习正常细胞中的调控“语法”,以及细胞在癌症发展过程中的变化。
这项工作也为理解许多其他疾病开辟了新的途径,并可能识别新的治疗靶点。通过向计算机模型展示新型突变,研究人员现在可以获得关于这些突变如何影响细胞的深入见解和预测。
Rabadan认为,这项工作是生物学新时代的一部分:“这是一个非常令人兴奋的新时代;生物学正在转变为一门预测性科学。”
(全文结束)


