这个谜题看似不可能解决:面对一个由三十亿个字母组成的代码,预测如果交换其中一个字母会发生什么。我们所说的代码——人类基因组——将其大部分指令存储在遗传“暗物质”中,即98%不制造蛋白质的DNA。伦敦谷歌DeepMind刚刚发布的人工智能系统AlphaGenome旨在展示这些非编码区内的微小变化是如何影响基因表达的。
DeepMind最新发布的技术有可能改变我们治疗遗传性疾病的方式。虽然科学家长期以来将非编码DNA视为“垃圾”,但我们现在知道这种所谓的暗物质控制着基因何时以及如何开启或关闭。AlphaGenome显示出预测这些区域突变导致疾病(从某些癌症到罕见疾病)的潜力,在后一种疾病中,关键蛋白从未被合成出来。通过揭示这些隐藏的控制开关,AlphaGenome可以帮助研究人员设计针对遗传病的疗法,从而帮助数百万人。
但要理解为AlphaGenome创建的任务复杂性,必须考虑“基因”定义的演变。该术语于1909年创造,用来描述不可见的遗传单位(如Gregor Mendel在1865年提出的),最初没有携带任何分子意义。但到了1940年代,“一个基因,一个酶”的观点开始流行。到了1960年代,教科书教授说,一段DNA要被正确称为基因,就必须编码特定的蛋白质。
在过去二十年里,随着发现编码多种RNA(不翻译成蛋白质)的基因,这一定义已经扩大。如今,基因被认为是可以执行生物功能的RNA或蛋白质产物的任何DNA片段。这种概念上的转变凸显了基因组的“地产地图”:只有大约1%至2%的人类DNA直接编码蛋白质。但随着更广泛的定义,约40%的DNA属于基因领域。
仍有大量未解释的内容:超过十亿个代码单元可以决定基因激活的时间和频率。由于相关线索相距甚远,并通过复杂的基因调控周期展开,解码它们一直是生物学最难的挑战之一。AlphaGenome的目标是了解这些区域如何影响基因表达——以及即使微小的变化也可能使整个身体从健康到疾病的平衡倾斜。为了做到这一点,这个AI系统使用长度高达一百万个字母的DNA序列为输入——并“预测表征其调节活动的数千种分子属性,”根据DeepMind发布的一份声明。
AlphaGenome已经复制了遗传学实验室的结果。在2025年6月的一篇预印本研究中(尚未经过同行评审),AlphaGenome团队描述了使用该模型运行模拟以模仿已知的DNA相互作用:一些像失控的灯开关一样的突变,让某种白血病中的某个基因过度活跃。当AlphaGenome模拟包含基因和突变的DNA段的相互作用时,它预测了已经在实验中观察到的同样复杂的连锁反应。
尽管AlphaGenome目前仅可用于非商业测试,但科学界的反应迄今为止非常热情,生物技术初创公司和大学研究人员都公开表达了对该系统加速研究潜力的兴奋之情。
仍然存在限制。AlphaGenome难以捕捉超过十万DNA字母距离的相互作用,可能会错过一些组织特异性的细微差别,并且不设计用于预测完整个人基因组的特征。依赖于发育或环境的复杂疾病也超出了它的直接范围。然而,该系统提出了广泛的应用:通过追踪微小变化如何在基因调控中产生涟漪效应,它可以定位遗传病的根源。它可以帮助合成DNA的设计。最重要的是,它可能提供一种更快的方式来绘制基因组复杂的调控电路图。
【全文结束】


