该模型被称为GREmLN,利用基于图的架构来表示基因间的相互作用,从而预测细胞行为,以用于治疗应用。
Andrea Califano, PhD,哥伦比亚大学化学与系统生物学教授,鼓励采用一种人工智能(AI)方法用于癌症免疫治疗,其中AI模型预测需要调节的基因,以训练免疫系统按需靶向特定器官。
Califano同时也是陈扎克伯格生物枢纽纽约分部的主席,他在过去的20年里致力于应用计算方法研究决定细胞行为的生物学调控机制、信号转导和细胞间通讯。他最近的工作聚焦于开发单细胞RNA(scRNA)基础模型,用于预测细胞对干预措施(如药物治疗)的反应。
虽然许多转录组AI模型受到了基于文本的大语言模型(LLMs)的启发,这些模型是解决需要理解位置关系(如句子中的单词)问题的强大工具,但它们在捕捉基因调控网络的复杂因果关系和分子逻辑方面存在不足。
为解决这一问题,Califano及其同事发布了GREmLN(基于基因调控嵌入的大型神经模型),这是一种利用基于图的架构来捕捉基因间长距离关系的AI模型。这项工作描述在一篇新发布的bioRxiv预印本中,尚未经过同行评审。
“如果你考虑10,000个基因,那么你将有大约1亿个潜在的基因网络相互作用,”Califano在接受GEN采访时解释道。“我们不是将生物学强行套用到计算机科学模型中,而是让模型去适应生物学。”
在与当前最先进的scRNA基础模型(如Geneformer、scGPT和scFoundation)进行基准测试时,GREmLN在细胞类型注释和图结构理解任务中均表现出色。此外,基于图的方法在计算上具有更高效参数架构和更快的训练收敛速度的优势。
GREmLN加入了陈扎克伯格倡议组织(CZI)日益增长的虚拟细胞模型家族,其中包括TranscriptFormer,这是一种跨物种探索细胞生物学的生成工具。此次模型发布是CZI虚拟细胞计划的又一进展,这是该非营利组织今年四月早些时候设定的四项科学重大挑战之一,旨在在AI与生物学交汇处改善人类健康。其他挑战包括开发成像技术来绘制复杂生物系统,创建用于实时测量组织炎症的新工具,以及利用免疫系统进行疾病的早期检测、预防和治疗。
目前,GREmLN已经基于来自CZ CELLxGENE数据库的超过1100万个scRNA-seq数据进行训练,这些数据主要来自健康人类捐献者的观察数据。为了提高模型在预测细胞对治疗反应方面的能力,Califano表示,团队正在使用新生成的针对可药物癌症基因的单细胞遗传扰动数据集对GREmLN进行实验验证。
“计算机科学家中有一种观点认为,你可以把所有数据扔进一个黑箱,然后解决方案就出来了,”Califano告诉GEN。“但事实并非如此。数据需要以非常特定的方式生成。”
在这一方向上,CZI于2月份宣布了“十亿细胞计划”(Billion Cells Project),与10X Genomics和Ultima Genomics合作,生成前所未有的十亿细胞数据集,以绘制跨多种细胞类型和组织的遗传扰动,从而提升AI模型在新的生物环境中的表现。
总体而言,Califano表示,GREmLN是构建真正全面的虚拟细胞这一宏伟目标的初步进展。他还指出,在我们宣布胜利之前,还需要更多的工作来引入细胞运转所需的更多调控层次。
尽管目前GREmLN仅涵盖转录调控,但研究人员计划扩展模型的功能,以包括信号转导、微小RNA、配体介导的细胞间相互作用等更多内容。此外,GREmLN可在CZI的虚拟细胞平台上获取,该平台向全球科学界开放并可供使用。
【全文结束】


