解读基因组的"暗物质"
一种新型模型结合高分辨率实验数据与深度学习技术,揭示了非编码DNA序列如何在不同细胞类型中控制基因活性。
DNA的故事远未结束。从1869年瑞士化学家弗里德里希·米舍尔首次发现核酸,到罗莎琳德·富兰克林和莫里斯·威尔金斯通过关键的X射线晶体学研究使沃森和克里克得以推导出双螺旋结构(1953年),科学家们一直在逐步揭示生命的基因密码。2003年人类基因组计划草图和2022年端粒到端粒完成的无间隙人类参考基因组等里程碑事件,已经提供了迄今为止最完整的人类DNA序列。
但测序基因组只是开始。要真正理解DNA如何工作,研究人员必须对其进行注释——识别基因、绘制转录本图谱,并破译控制基因何时、何地以及如何开启或关闭的调控元件。蛋白质编码DNA仅占大多数真核生物基因组的一小部分——在人类中约占1-2%——然而剩余的非编码DNA携带了大量调控指令,控制着不同细胞类型和条件下的基因活性。
为了注释剩余的99%,七家研究团队在Oncode研究所的PERICODE项目中联手。该努力的首个成果发表在《自然》杂志上,即PARM模型(启动子活性调控模型),它利用数百万精确的实验测量数据结合深度学习,解码不同细胞类型中的启动子活性。这一突破可能改变我们对疾病的理解,指导新疗法的设计,并最终揭示长期以来困扰科学家的广阔非编码DNA区域。
PARM模型的起源
PARM(启动子活性调控模型)的开发是PERICODE项目内高度协调努力的成果,PERICODE是Oncode研究所的一个合作倡议,该虚拟研究所连接了荷兰顶尖的癌症研究人员。来自多个机构的七位首席研究员联合起来,汇集了基因组学、计算生物学、肿瘤学和生物化学方面的专业知识。这种跨学科方法对于应对解码非编码基因组的复杂挑战至关重要。
研究期间任职于乌得勒支大学医学中心的首席研究员、该研究的资深作者耶罗恩·德·里德告诉《药物发现新闻》,该项目始于Oncode资助大胆、高风险研究想法的使命。"我们被安排在一个房间里,要求提出宏大的想法,"他回忆道。"我在人工智能方面的专业知识和巴思[范·斯滕塞尔]在基因组学方面的专业知识,加上另外五位首席研究员在临床、遗传学和蛋白质组学方面的专业知识,在解决一个基本问题上形成了非常好的匹配:非编码基因组如何在调控基因表达中发挥作用。"
"我们希望注释癌症基因组中的非编码突变。每个癌症基因组都有数以万计的突变,其中大多数毫无作用,但有些至关重要。我们的目标是确定哪些突变具有实际影响。"
——巴思·范·斯滕塞尔,Oncode研究所
荷兰癌症研究所的首席研究员巴思·范·斯滕塞尔解释说,长期目标从一开始就很明显。为了实现这一目标,研究团队需要一种方法来精确定位哪些突变确实影响了基因表达。
为什么因果关系数据很重要
PARM背后的一个关键设计选择是决定使用大规模并行报告基因分析(MPRA)数据而非大规模表观基因组或转录组图谱来训练模型。尽管这些数据集捕捉了全基因组的调控模式,但它们只提供相关性信息,而非揭示单个DNA序列对基因表达的因果贡献。
MPRA采用了根本不同的方法。数百万个短DNA片段在单一细胞类型中被单独测试,每个片段都与一个报告其调控活性的条形码相连。由于每个序列都是独立测量的,基因表达的变化可以直接归因于特定的DNA元件。这为模型生成了因果关系、高分辨率的数据,该模型随后可以预测未经测试的序列或突变将如何影响启动子活性。
"相关性数据只能到此为止,"德·里德指出。"在这里,我们为模型提供了智能、有针对性的数据,使其能够更快地学习,而不是让它自己去判断什么有用、什么没用。"
通过将这些高分辨率测量数据与深度学习相结合,PARM可以识别哪些序列基序驱动基因活性,这些基序如何相互作用,以及它们在启动子中的位置如何影响调控。该模型还可以预测先前未经测试的序列或突变将影响基因表达,为探索遗传变异的功能后果提供了一个强大工具。
这种方法使PARM与该领域的其他努力区分开来。"该领域似乎专注于构建越来越大的模型,整合越来越多的数据——例如我们工作前一周发布的最新AlphaGenome,"德·里德说。"那是一项出色的努力,将推动该领域发展,但它有点像从太空看地球。我们采取显微镜方法,聚焦于我们想要研究的内容——在这种情况下,是特定细胞类型或特定刺激下的启动子。"
验证该方法
PARM最引人注目的成果之一是它能够改进我们对启动子结构的理解。"该模型现在可以预测,对于每个启动子,哪些转录因子调控它以及它们的基序确切位置,"范·斯滕塞尔说。"它具有难以置信的分辨率,揭示了转录因子定位的模式:有些倾向于非常接近转录起始位点,有些略靠上游,还有少数甚至在下游。我们开始看到生物学模式和规则,这些规则之前部分已知,但从未达到这种详细程度。"
"我们可以对细胞类型中的每个启动子进行全基因组分析,甚至在不同刺激或药物治疗下进行。而且我们可以在标准学术硬件上完成,无需大规模集群。这使我们发现了一些真正有趣的调控模式,而这些模式如果仅通过实验发现可能需要数年时间。"
——耶罗恩·德·里德,Oncode研究所
实际上,PARM使传统方法无法实现的实验成为可能。例如,研究人员可以进行计算机模拟诱变,系统地改变启动子上的一个碱基,并预测每次改变如何影响基因表达。这提供了关于哪些核苷酸关键、转录因子如何协调以及哪些序列可能介导与疾病相关的调控变化的见解。德·里德解释说:"我们可以对细胞类型中的每个启动子进行全基因组分析,甚至在不同刺激或药物治疗下进行。而且我们可以在标准学术硬件上完成,无需大规模集群。这使我们发现了一些真正有趣的调控模式,而这些模式如果仅通过实验发现可能需要数年时间。"
虽然该系统最初是为了注释癌症基因组中的非编码突变而创建的,但它已被证明具有更广泛的用途。通过揭示调控启动子活性的规则,PARM为理解几乎所有细胞类型中的基因调控提供了蓝图。研究人员现在可以探索转录因子如何协调、预测突变或药物治疗的效果,甚至设计合成调控序列——所有这些都不需要在实验室进行详尽的实验。
展望未来,研究团队计划扩展该模型,纳入增强子、表观遗传修饰和染色质结构,朝着更完整的基因组调控代码图谱迈进。通过将高分辨率实验数据与计算建模相结合,PARM可以提供解码整个非编码基因组并理解其在疾病中作用的蓝图——为诊断、治疗和精准医学提供新的机遇。
【全文结束】

