最先进的AI预测人类细胞中的基因活动State-of-the-Art AI Predicts Gene Activity in Human Cells

环球医讯 / AI与医疗健康来源:www.psychologytoday.com美国 - 英语2025-01-11 09:00:00 - 阅读时长5分钟 - 2075字
哥伦比亚大学科学家及其同事发表了一项研究,介绍了一种名为GET的最新AI基础模型,该模型能够预测多种人类细胞类型的基因活动,有助于遗传学、癌症和复杂疾病的研究,为人类健康带来重大推动。
AI基因活动人类细胞计算机科学人工智能机器学习基因组转录调控疾病治疗GET模型预测基因表达基础模型染色质PAX5基因B细胞白血病遗传信息健康研究复杂疾病蛋白质抗体公共目录功能性变异神经系统疾病代谢疾病心血管疾病癌症
最先进的AI预测人类细胞中的基因活动

人类健康可能从计算机科学的比特和字节中获得巨大提升。特别是,人工智能(AI)机器学习模型正在帮助解开人类基因组的奥秘,为潜在挽救生命的遗传和复杂疾病的治疗提供支持。本周,哥伦比亚大学的科学家及其同事在《自然》杂志上发表了一篇同行评审的研究,揭示了一种能够预测许多不同人类细胞类型基因活动的AI基础模型。

基因表达是发生在细胞内部的一个基本过程,它将遗传信息转化为可利用的产品,如对生物体的发育、结构和功能至关重要的蛋白质。它是将DNA中的遗传信息转化为RNA和氨基酸的过程。为了预测基因表达,必须考虑转录调控。当转录调控不能正常工作时,不适当的基因表达模式会发生,这可能导致疾病。例如,普林斯顿大学研究人员Ell和Kang的一项不同研究表明,转录调控在癌症肿瘤进展和转移中起着关键作用。

“在这项研究中,我们介绍了GET,这是一种最先进的基础模型,专门设计用于解析广泛人类细胞类型中转录调控机制。”哥伦比亚大学系统生物学、生物医学信息学和外科系教授,数学基因组学项目和癌症进化与异质性拓扑研究中心主任Raul Rabadan博士及其研究团队写道。

在分子遗传学和基因组学领域,具有预测转录调控能力非常重要,因为它在控制基因表达方面起着重要作用。然而,现有的AI转录模型缺乏稳健性,这是哥伦比亚大学研究人员及其研究同事的观点。“计算模型在转录方面的泛化能力不足,无法准确外推到未见过的细胞类型和条件。”研究人员写道。

在人工智能机器学习中,“泛化”是指AI算法在从未接触过的全新数据上进行预测的能力。AI算法越强大,它就越能对以前未见过的新颖数据做出准确预测。哥伦比亚大学的论文指出,AI变换器模型Enformer以及深度卷积神经网络模型Basenji2和Expecto在微调后仅对训练细胞类型进行预测,因此它们的设计用途和泛化能力有限。

如何应对这一挑战?科学家们借鉴了最新的AI基础模型突破。“通过在广泛多样的数据集上进行广泛的预训练,基础模型提供了对其训练数据的通用理解,在此基础上可以构建专门的适应来解决特定任务或挑战。”研究人员写道。

在计算机科学中,AI基础模型是大型生成型深度学习神经网络,使用大量广泛且未标注的数据进行预训练,可用于各种任务,而不仅限于单一目的。“最近,像GPT-4和ESM-2这样的基础模型已经出现,成为一种变革性的方法。”研究作者写道。

OpenAI的GPT-4是一种变换器风格的AI模型,可以通过图像和文本(多模态)提示生成文本输出。由Meta基础AI研究蛋白质团队(FAIR)研究人员创建的ESM-2是一个针对蛋白质的预训练大型语言模型。

科学家们还强调了其他使用AI基础模型的基因组学研究,如scGPT,一种基于单细胞测序数据的多组学生成变换器,预训练数据来自超过3300万个细胞;scFoundation(也称为xTrimoscFoundationα),一个用于单细胞分析的变换器,预训练数据来自超过5000万个单细胞转录组数据;以及Geneformer,一个预训练于大约3000万个单细胞转录组的变换器模型。

这项研究的独特之处在于,哥伦比亚大学科学家及其研究合作伙伴特意使用正常组织的数据来训练他们的AI变换器模型,而不是使用病变的人类细胞数据。GET算法从超过130万个细胞的大量训练数据中学习到了与预测基因表达相关的特征。

据研究人员称,尚未有AI基础模型用于理解染色质对转录的影响。根据国家人类基因组研究所的定义,染色质由DNA和蛋白质组成,形成包含基因的结构,称为染色体,这些染色体位于植物、动物和人的细胞核中。人体每个细胞中有46条染色体,排列成23对,其中一半来自父亲,另一半来自母亲。常染色体是第1到第22对染色体。第23对是决定人类出生时性别(男性XY或女性XX)的性染色体。染色体之所以重要,是因为它们携带了从一个细胞代传递到另一个细胞代的遗传信息。

“仅依赖于染色质可及性数据和序列信息,GET在预测基因表达方面达到了实验水平的准确性,即使是在之前未见过的细胞类型中。”研究人员报告说。

科学家们创建了一个更强大的AI模型,能够以高精度预测先前未见过的细胞类型中的基因活动。他们使用GET创建了一个公共目录,记录了转录因子相互作用和具有细胞类型特异性的基因调控。他们在实验室中验证了GET对PAX5基因的计算机模拟预测,PAX5基因是一种参与B淋巴细胞(B细胞)发育的转录因子,经常在前体B细胞急性淋巴细胞白血病(B-ALL)中发生突变,这是一种常见的儿童癌症。B细胞产生抗体,一种结合病毒、寄生虫和细菌等病原体或外来物质的蛋白质,以中和它们。

“以PAX5基因为例,我们展示了目录在识别无序蛋白域中功能性变异的效用,这些变异以前很难研究。”科学家们总结道。

凭借这一突破,研究人员拥有了一种新的AI工具,可以帮助预测各种不同人类细胞类型中的基因活动,这可能在未来加速遗传疾病和复杂疾病(如神经系统疾病、发育障碍、综合征、自身免疫、代谢疾病、心血管疾病和癌症)的研究。


(全文结束)

大健康
大健康