约翰霍普金斯大学的研究人员开发了一种强大的新AI工具,称为Splam,可以识别基因中发生剪接的位置——这一进展可以帮助科学家更准确地分析遗传数据,提供新的见解,揭示基因功能和突变如何导致疾病。他们的研究成果发表在《基因组生物学》杂志上。
关键要点
- 一种名为Splam的AI工具比现有方法更准确地分析遗传数据,探索突变与疾病的潜在联系
- Splam通过识别剪接位点来工作,这些位点是细胞修剪非必需部分的地方
- 识别剪接位点是组装基因转录本的关键步骤,用于识别DNA的功能部分及其在体内的作用
“精确定位剪接位点是理解细胞如何解读遗传指令的关键,”共同首席作者Kuan-Hao Chao说。他是惠廷工程学院计算机科学系的一名博士生,隶属于计算生物学中心(CCB)。“Splam使我们能够高效准确地分析遗传数据,展示突变如何影响我们的健康,以及为什么同一基因在不同条件下可以产生不同的蛋白质。”
该项目的其他参与者包括他的导师——计算生物学和基因组学的布隆伯格杰出教授、CCB主任Steven Salzberg,生物医学工程和遗传医学副教授Mihaela Pertea(同时在计算机科学系担任副职),以及四年级本科生Alan Mao,他主修生物医学工程和计算机科学。
细胞依赖基因来指导其功能,每个基因都包含有用的指令(称为外显子)和非必需部分(称为内含子)。剪接是细胞去除非必需部分的过程,仅保留所需部分。
研究人员表示,计算上识别剪接位点是现代遗传学研究中准确组装基因转录本的关键步骤,其中RNA测序实验测量基因在不同条件下的表达水平——基本上是基因是否开启或关闭。
“例如,癌症研究人员经常使用RNA测序技术比较健康细胞和癌细胞中的基因表达,”Chao说。
识别剪接位点在注释基因组中也非常重要,这涉及识别我们DNA中的哪些部分具有功能及其在体内的作用。一个熟悉的基因组注释应用是在遗传测试服务中,如23andMe等公司提供的服务。这些测试分析你基因组的部分,告诉你关于你的祖先、健康风险和遗传特征的信息。基因组注释通过识别和解释这些人类基因组区域使之成为可能。
与最先进的“SpliceAI”工具相比,霍普金斯团队的“Splam”方法使用更短的DNA序列窗口来预测RNA剪接位点,使其模型更具生物学现实性和研究可行性,Chao说。
该团队的Splam算法采用800个核苷酸的DNA序列——潜在供体和受体位点两侧各有400个腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)——并输出每个碱基对作为供体位点、受体位点或都不是的概率。
“我们的算法试图成对识别这些供体/受体位点,就像细胞中的剪接体‘分子机器’在切除内含子时所做的那样,”Chao说。
研究人员开发了他们的算法,以在800个核苷酸的窗口内识别剪接接合点——这是一个远小于Splice AI所需的10,000个核苷酸的区域。团队报告称,尽管需要较少的基因组数据,Splam在剪接接合点识别准确性方面仍优于SpliceAI。
在使用人类DNA训练深度学习模型后,研究人员对其他物种的基因密码进行了额外测试。
“关于深度学习方法的一个常见担忧是它们是否只是记住了训练数据,或者它们的预测模型是否能在偏离训练数据的情况下工作,”Chao说。“因此,为了评估Splam是否学会了更一般的剪接规则,我们收集了来自三个逐渐遥远物种的数据,并将算法应用于每个物种而无需重新训练。”
该团队选择了黑猩猩、小鼠和芥菜科开花植物的基因组。随后的实验表明,Splam的生物启发设计在这些更遥远的DNA序列上仍然产生了高度准确的结果——表明他们的方法确实学会了许多动物和植物共享的基本剪接模式。
该团队的下一步计划包括将模型应用于更多物种,并将其方法整合到现有的RNA测序管道中,以便在转录组组装中实际使用。
“我们的方法在改进转录组组装和减少剪接噪声方面有直接应用,使其在广泛的基因组研究中具有价值,”Chao说。“我们希望Splam能够促进对我们的基因组及其内部基因的更好理解。”
(全文结束)


