Arc研究所启动虚拟细胞挑战赛以加速AI模型开发

Arc Institute Launches Virtual Cell Challenge to Accelerate AI Model Development

美国英文科技与健康
新闻源:Genetic Engineering and Biotechnology News
2025-07-07 20:55:59阅读时长7分钟3015字
虚拟细胞挑战赛AI模型健康疾病治疗细胞状态转变新药发现单细胞转录组学基因扰动模型评估数据驱动进步

Arc研究所启动了“虚拟细胞挑战赛”(Virtual Cell Challenge),这是一项开放基准竞赛,用于评估虚拟细胞模型在新细胞环境中泛化的性能,从而为治疗应用提供支持。

Arc研究所机器学习团队负责人Yusuf Roohani博士正带领一组研究人员利用转录组数据训练人工智能(AI)模型,以预测细胞基因表达模式如何随不同细胞状态而变化。这些所谓的“虚拟细胞”可以帮助研究人员发现能够将细胞从“疾病状态”转变为“健康状态”的新药,同时减少脱靶效应,从而提高临床成功率。

然而,构建虚拟细胞并非易事。“当你观察细胞时,你会发现它们是动态的活系统,”Roohani在接受《GEN Edge》采访时说道,“细胞始终处于变化之中,它们复杂且依赖于实验条件。”

虚拟细胞模型必须考虑生物学的复杂性,例如细胞类型、遗传背景和细胞环境。此外,许多现有的单细胞数据集受到显著技术噪声的影响,包括独立实验中扰动效应再现性的限制,这削弱了模型性能。由于缺乏标准化基准和专门设计的数据集,领域内一直难以评估虚拟细胞模型是否捕捉到了可推广的生物学见解,而非特定于某个数据集的模式。

为了推动虚拟细胞基准测试和加速发展,Arc研究所宣布举办首届“虚拟细胞挑战赛”。这项公开竞赛由Nvidia、10x Genomics和Ultima Genomics赞助,大奖为10万美元,奖励最佳预测细胞对基因扰动反应的机器学习模型。该挑战赛在《Cell》杂志上发表的一篇评论文章中进行了描述,Roohani为第一作者。

这一举措借鉴了蛋白质结构预测关键评估(CASP)竞赛的经验,该竞赛每两年评估一次结构生物学领域的最新技术模型。Arc联合创始人兼核心研究员Patrick Hsu博士强调,CASP竞赛在过去25年间彻底改变了蛋白质结构预测,并最终促成了AlphaFold等获得诺贝尔奖的算法的突破。

“我们相信Arc可以采用相同的方法,加速实现全面的虚拟细胞目标,这可能会从根本上改变我们研究生物学以及识别治疗复杂疾病靶点的方式,”Hsu在一份公开声明中表示。

斯坦福大学副教授、位于斯德哥尔摩KTH皇家理工学院的人类蛋白质图谱项目联合主任Emma Lundberg博士也认为,建立基准一直是评估和比较虚拟细胞模型的关键挑战。“我希望[Arc的]挑战赛能够帮助统一社区,并加速开发高效且有用的虚拟细胞模型。希望这是该领域众多标准化挑战赛中的第一个,”她告诉《GEN Edge》。

陈-扎克伯格计划(CZI)人工智能高级总监Theofanis Karaletsos是虚拟细胞的积极开发者,他推动了CZI近期的多项模型开发,例如用于单细胞扰动的scGenePT和用于跨物种预测的TranscriptFormer。

“在CZI,我们专注于构建尖端模型,并提供标准化评估框架,以加深科学界对细胞的理解,”Karaletsos告诉《GEN Edge》。“社区基准非常重要,我们认为像Arc这样的开放式竞赛是加速创新和集体进步的强大机制。”

Arc研究所是一家位于帕洛阿尔托的非营利研究机构,于2021年由Hsu和斯坦福大学生物化学助理教授、现任Arc执行董事Silvana Konermann博士共同创立。自成立以来,该研究所一直以数据驱动型AI为核心进行大胆投资。今年早些时候,Arc与Nvidia合作发布了当时号称最大的公开可用生物学AI模型Evo 2。

新语境

AI模型的一大挑战是做出超出训练数据范围的预测,因此Arc竞赛将评估参赛虚拟细胞模型在推广到新细胞环境时预测基因活动变化的能力。

在首届竞赛中,Arc生成了一个包含30万个H1人类胚胎干细胞(H1 hESCs)的新单细胞转录组学数据集,涉及300种基因扰动。该数据集将在竞赛的不同阶段分段发布,用于微调、验证和测试。

模型将根据以下三个指标进行评估:1)预测差异表达基因的性能;2)区分不同扰动效应的性能;3)表达计数偏差的整体误差。

在竞赛中期,参赛模型的临时表现将在实时排行榜上共享。排名前三的团队将分别获得价值10万、5万和2.5万美元的奖金,其中包括现金奖励和NVIDIA DGX Cloud积分。

竞赛现已开放注册,学术机构、生物技术公司和独立研究组织的个人或团队均可参与。最终排名将完全基于模型在最终测试集上的表现,测试集将于10月下旬发布,距离最终提交截止日期仅一周。获奖者将于12月公布。

当前状态

作为基线,虚拟细胞挑战赛的参赛者将首先与Arc的第一代虚拟细胞模型STATE展开竞争。该模型旨在预测各种干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反应。STATE本周早些时候已发布,供非商业用途使用,并在Arc网站上发布了一篇未经同行评审的预印本论文。

根据作者介绍,STATE在多个大型数据集上将扰动效应的区分能力提高了50%以上,并在基因、信号和化学扰动中识别差异表达基因的准确性比现有模型高出两倍。

为了提升灵活性和可扩展性,STATE由两个相互关联的模块组成,分别是状态转换模型(ST)和状态嵌入模型(SE)。

ST利用来自70种环境中超过1亿个扰动细胞的数据学习扰动效应。与现有模型不同的是,ST不专注于单个细胞的预测,而是采用独特的双向变压器架构对整个细胞集合进行预测。这种方法允许灵活捕获生物和技术异质性,而无需依赖关于分布的显式假设。

SE则基于来自1.67亿个人类细胞的观测单细胞数据进行训练,以学习不同数据集中细胞间的基因表达变化。该模块提供的表示形式优化了生物扰动检测,并对技术噪声具有鲁棒性,使STATE能够有效利用多个大型数据集进行训练。

数据驱动的进步

虚拟细胞挑战赛的参赛者被邀请利用公共数据库中的基因表达数据训练模型,包括Arc虚拟细胞图谱中包含的超过5亿个细胞数据。该图谱由大规模单细胞数据集scBaseCount和Tahoe-100M组成。

慕尼黑亥姆霍兹计算生物学研究所所长Fabian Theis博士是预测细胞水平基因和化学扰动领域的知名研究者。他表示,改进数据规模和质量是推动领域发展的关键。

“我对即将举行的Arc扰动预测挑战赛感到兴奋,”Theis告诉《GEN Edge》。“直到最近,数据规模才足够扩展,使得复杂的生成式AI模型能够超越简单的线性模型。看到不同类型模型在新数据上的真正‘分布外’行为将非常有趣。”

Theis的实验室团队因开发CellFlow框架而闻名,这是一种基于流匹配的生成建模方法,可以模拟由复杂扰动诱导的单细胞表型。此外,Theis还是科学问题开放小组(Open Problems)的科学顾问,该小组曾主办过相关挑战赛,用于基准测试各种单细胞分析方法。

其他可用于虚拟细胞挑战赛模型训练的数据集包括X-Atlas/Orion,这是AI药物发现独角兽公司Xaira Therapeutics上周发布的最大公开Perturb-seq数据集。该数据集的优势在于能够测量剂量依赖性基因效应,从而定义药物靶点产生所需效果的具体抑制百分比。

Xaira Therapeutics早期发现副总裁Ci Chu博士表示,CASP在蛋白质结构预测领域的基准测试树立了良好的先例。

“看到Arc团队将同样的精神应用于虚拟细胞社区令人兴奋,”Chu告诉《GEN Edge》。“该领域的进步最终取决于数据。社区拥有的高质量公共数据越多越好,这也是我们发布X-Atlas/Orion的原因。”

Xaira目前正在与AI专家Bo Wang博士合作开发自己的虚拟细胞模型。Wang博士于4月加入团队,担任高级副总裁兼生物医学AI负责人。他来自多伦多大学,是scGPT的发明者,该模型是一个用于单细胞多组学的基础模型,具备下游能力,包括细胞类型注释、扰动反应预测和基因网络推断。

随着研究人员推进下一代AI模型以登上虚拟细胞挑战赛排行榜,领域内将关注是否会有新的治疗突破随之而来。挑战赛正式开始。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。