DeepMind推出了名为AlphaGenome的全新人工智能(AI)模型,该模型可以预测单个DNA变异如何影响整个人类基因组中的基因调控。目前,这一模型已通过API向非商业研究开放,标志着对基因组中“暗物质”——即长期以来被认为难以解读的非编码区域的理解取得了重要进展。
AlphaGenome能够分析多达100万个DNA碱基对,并提供关于数千种分子过程的高分辨率预测,例如基因起始和终止的位置、RNA如何剪接以及哪些蛋白质与DNA结合。DeepMind表示,这种预测能力提供了一个“统一模型”,帮助科学家更好地理解基因功能及突变的影响。
纪念斯隆-凯特琳癌症中心的Caleb Lareau博士在博客文章中表示:“这是该领域的一个里程碑。我们首次拥有一个单一模型,它能将长距离上下文、碱基级精度与全谱基因组任务中的最先进性能统一起来。”
与Enformer和AlphaMissense等早期模型不同,这些模型主要关注蛋白质编码区域,而AlphaGenome旨在分析基因组中剩余的98%——即调节基因活动且常与疾病相关的非编码区域。DeepMind称,该模型为探索这些广阔区域提供了前所未有的细节。
其架构结合了用于检测短模式的卷积层、捕捉长程依赖关系的Transformer模型以及生成预测的最终层。据公司介绍,AlphaGenome在24项序列预测基准测试中的22项上优于顶级外部模型,并在26项变异效应任务中的24项上达到或超过其他模型的表现。
在涉及T细胞急性淋巴细胞白血病(T-ALL)的测试案例中,AlphaGenome成功预测了特定突变如何通过为MYB蛋白创建新的结合位点来激活与癌症相关的TAL1基因,从而复制了已知的疾病机制。这一结果凸显了该模型将非编码变异与疾病结果联系起来的潜力。
伦敦大学学院的Marc Mansour教授在文章中解释道:“AlphaGenome将成为该领域的强大工具。确定不同非编码变异的相关性极具挑战性,尤其是在大规模情况下。这一工具为解决这一难题提供了关键线索。”
不过,DeepMind也承认了一些局限性。它仍然难以预测相距超过10万个碱基对的非常远距离DNA相互作用的效果,并且尚未验证其在个人基因组解读或临床应用中的适用性。
研究人员可以通过预览版API访问AlphaGenome,并通过DeepMind社区论坛进行协作。该公司表示,该模型有望加速疾病研究、合成生物学和基础科学领域的发现。
DeepMind在一份声明中表示:“我们希望AlphaGenome能够加深我们对DNA序列中复杂细胞过程的理解,并推动基因组学和医疗保健领域的新发现。”
(全文结束)


