谷歌的AlphaGenome AI使DNA可读——且已上线GitHubGoogle's AlphaGenome AI Makes DNA Readable—And It's on GitHub

环球医讯 / AI与医疗健康来源:decrypt.co美国 - 英文2025-06-26 07:00:00 - 阅读时长5分钟 - 2280字
谷歌DeepMind推出的AlphaGenome AI模型能够解读“垃圾DNA”,为基因组研究提供前所未有的工具,帮助科学家探索疾病起源和个性化医疗,并通过API向全球研究人员开放,推动开放科学。
AlphaGenomeAIDNA解读遗传疾病个性化医疗抗衰老治疗基因组学基因表达疾病起源可访问性
谷歌的AlphaGenome AI使DNA可读——且已上线GitHub

谷歌DeepMind今天发布的AlphaGenome不仅仅是在AI科学竞赛中的又一产品。通过非商业研究可用的API访问,以及在GitHub上托管的广泛文档和社区支持,它标志着基因组学正迅速迈向开放科学的新时代。

想象一下,你的DNA就像一本巨大的说明书,详细说明了身体如何运作。长期以来,科学家只能理解直接告诉身体如何构建物质(如蛋白质)的部分。但超过90%的DNA并不直接构建任何东西,过去人们称之为“垃圾DNA”。现在我们知道这些“垃圾”实际上发挥着重要作用:它们帮助控制指令何时何地被使用,就像一个充满开关和旋钮的控制面板。问题在于,这部分DNA很难读懂和理解。

这就是AlphaGenome的作用所在。AlphaGenome是由谷歌DeepMind开发的强大AI模型,能够比以往任何技术更好地解读这些复杂的DNA部分。它利用先进的机器学习(类似于图像生成器或聊天机器人背后的技术),分析长达一百万个碱基对的DNA序列,找出哪些部分重要、它们如何影响基因,甚至突变如何导致疾病。

这就像拥有一台超级智能的AI显微镜,不仅能读取说明书,还能搞清楚整个系统是如何开启和关闭的,以及出错时会发生什么。

令人兴奋的是,DeepMind通过API(一种计算机与其交互的方式)共享这一工具,因此世界各地的科学家和医学研究人员可以免费在其研究中使用。这可能有助于加速遗传疾病、个性化医疗,甚至是抗衰老治疗方面的发现。

简而言之,AlphaGenome帮助科学家解读我们以前不了解的DNA部分,而这可能会彻底改变我们治疗疾病的方式。

AlphaGenome的技术细节

AlphaGenome是一种深度学习模型,旨在分析DNA序列如何调控基因表达及其他关键功能。与只能解析短DNA片段的老模型不同,AlphaGenome可以处理长达一百万个碱基对的序列,这种规模前所未有,使其能够捕捉到以前方法无法识别的远距离调控相互作用。

AlphaGenome的核心优势在于其多模态预测引擎。与仅能预测一种基因组活动的先前模型不同,该模型输出高分辨率的基因表达(RNA-seq、CAGE)、剪接事件、染色质状态(包括DNase敏感性和组蛋白修饰)及3D染色质接触图谱的预测结果。这不仅有助于确定细胞中哪些基因被激活或抑制,还能帮助理解基因组折叠、编辑和可及性的复杂编排。

其架构引人注目,但如果你曾使用过Stable Diffusion或普通的开源大语言模型(LLM),会觉得它相当熟悉:AlphaGenome采用U-Net启发的神经网络,约有4.5亿个可训练参数。虽然相较于数十亿参数的语言模型显得较少,但考虑到DNA只涉及四个碱基和两对配对——基本上整个人类基因组不过是30亿对A-T和C-G字母的组合——这是一个非常具体的模型,专为做单一任务而设计得极为出色。

该模型有一个序列编码器,将输入从单碱基分辨率下采样到较粗略的表示形式,然后通过转换器模型层建立长程依赖关系,最后由解码器重建输出回到单碱基水平。这使得各种分辨率下的预测成为可能,从而进行精细和广泛的调控分析。

模型的训练依赖于大量公开可用的数据集,包括ENCODE、GTEx、4D Nucleome和FANTOM5——这些资源共同代表了数千种实验数据,涵盖人类和小鼠的细胞类型。使用谷歌定制TPU,DeepMind团队在短短四小时内完成了预训练和蒸馏过程,计算预算仅为前代Enformer的一半。

AlphaGenome在22项序列预测测试中的24项和24项变异效应预测中的26项中表现优于最先进的模型,在基准测试中取得了罕见的全面胜利,而这类测试通常仅有渐进式的改进。它如此高效,以至于可以在几秒钟内比较突变和未突变的DNA,预测遗传变异的影响,这是研究人员绘制疾病起源的关键工具。

这一点非常重要,因为非编码基因组包含许多控制细胞功能和疾病风险的调控开关。像AlphaGenome这样的模型正在揭示人类生物学中有多少是由这些以前不透明区域所控制的。

AI在生物学中的应用

如今,AI对生物学的影响不容忽视。以Ankh为例,这是一种由慕尼黑工业大学、哥伦比亚大学和初创公司Protinea开发的蛋白质语言模型。Ankh将蛋白质序列视为语言,生成新的蛋白质并预测其行为,类似于AlphaGenome翻译DNA的调控“语法”。

另一项相关技术是Nvidia的GenSLMs,展示了AI预测病毒突变和聚集遗传变异用于流行病研究的能力。同时,AI在化学和基于基因的抗衰老干预措施中的应用突显了基因组学、机器学习和医学的交汇点。

AlphaGenome的贡献

AlphaGenome最重要的贡献之一是它的可访问性。该模型不仅限于商业用途,而是通过公共API供非商业研究使用。

尽管尚未完全开源——意味着研究人员还不能下载并在本地运行或修改它——但API及相关资源允许全球科学家生成预测、调整各种物种或细胞类型的分析,并提供反馈以塑造未来的版本。DeepMind已暗示计划在未来进行更广泛的开源发布。

AlphaGenome分析非编码变异的能力——大多数与疾病相关的突变都位于这一区域——可能解锁对遗传性疾病和罕见疾病的新理解。其高速变异评分也支持个性化医疗,根据个人独特的DNA档案定制治疗方案。

目前,非编码基因组不再是黑箱,AI在基因组学中的角色只会不断扩展。AlphaGenome或许不是带领我们进入赫胥黎《美丽新世界》的模型,但它显然是未来趋势的明确标志:更多数据、更好预测、更深入理解生命运作方式。


(全文结束)

大健康
大健康