新AI工具以无与伦比的精度定位基因剪接New AI tool pinpoints gene splicing with unmatched precision

环球医讯 / AI与医疗健康来源:phys.org美国 - 英语2024-12-12 02:00:00 - 阅读时长4分钟 - 1517字
约翰霍普金斯大学的研究人员开发了一种名为“Splam”的强大新AI工具,可以精确定位基因剪接发生的位置,这一进展有助于科学家更准确地分析遗传数据,提供关于基因功能和突变如何导致疾病的新见解。
新AI工具Splam基因剪接基因功能疾病健康遗传数据基因组注释RNA测序深度学习
新AI工具以无与伦比的精度定位基因剪接

约翰霍普金斯大学的研究人员开发了一种强大的新AI工具,称为“Splam”,该工具可以识别基因中剪接发生的位置——这一进展可以帮助科学家更准确地分析遗传数据,提供关于基因功能和突变如何导致疾病的新见解。他们的研究发表在《基因组生物学》杂志上。

“精确识别剪接位点是理解细胞如何解读遗传指令的关键,”共同主要作者、惠廷工程学院计算机科学系博士生兼计算生物学中心(CCB)成员Kuan-Hao Chao说。“Splam让我们能够高效准确地分析遗传数据,展示突变如何影响我们的健康,以及为什么同一个基因在不同条件下可以产生不同的蛋白质。”

该项目的其他参与者包括他的导师——计算生物学和基因组学的布隆伯格杰出教授、CCB主任Steven Salzberg,生物医学工程和遗传医学副教授兼计算机科学系副教员Mihaela Pertea,以及同时主修生物医学工程和计算机科学的大四本科生Alan Mao。

细胞依赖基因来指导其功能,每个基因都包含有用指令(称为外显子)和非必需部分(称为内含子)。剪接是细胞去除非必需部分的过程,只保留所需的部分。

据研究人员称,计算上识别剪接位点是现代遗传学研究中准确组装基因转录本的关键步骤,其中RNA测序实验测量基因在不同条件下的表达水平——基本上是基因是否开启或关闭。

“例如,癌症研究人员经常使用RNA测序技术比较健康细胞和癌细胞中的基因表达,”Chao说。

识别剪接位点对于注释基因组也很重要,这涉及识别我们DNA的哪些部分具有功能及其在体内的作用。一个熟悉的应用是基因检测服务,如23andMe提供的服务。这些测试分析你基因组的一部分,告诉你关于你的祖先、健康风险和遗传特征的信息。基因组注释通过识别和解释这些人类基因组区域使这一切成为可能。

与最先进的“SpliceAI”工具相比,霍普金斯团队的Splam方法使用更短的DNA序列窗口来预测RNA剪接位点,使其模型更具生物学现实性和研究可行性,Chao说。

该团队的Splam算法采用800个核苷酸的DNA序列——潜在供体和受体位点两侧各有400个腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)——并输出每个碱基对作为供体位点、受体位点或两者都不是的概率。

“我们的算法试图成对识别这些供体/受体位点,就像细胞中的剪接体‘分子机器’在切除内含子时所做的那样,”Chao说。

研究人员开发了他们的算法,以在800个核苷酸的窗口内识别剪接接头——这比SpliceAI所需的10,000个核苷酸小得多。团队报告称,尽管需要的基因组数据较少,但Splam在剪接接头识别准确性方面超过了SpliceAI。

在使用人类DNA训练深度学习模型后,研究人员对其他物种的遗传密码进行了额外测试。

“关于深度学习方法的一个常见问题是,它们是否只是记住了训练数据,还是其预测模型能否处理与其训练数据不同的数据,”Chao说。“因此,为了评估Splam是否学到了更普遍的剪接规则,我们收集了三种逐渐远离的数据,并在未重新训练的情况下将算法应用于每一种。”

该团队选择了黑猩猩、小鼠和芥菜科开花植物的基因组。随后的实验表明,Splam的生物学启发设计在这些更远的DNA序列上仍能产生高度准确的结果——这表明他们的方法确实学到了许多动植物共享的基本剪接模式。

团队的下一步包括将其模型应用于更多物种,并将其方法整合到现有的RNA测序管道中,以便在转录组组装中实际应用。

“我们的方法在改善转录组组装和减少剪接噪声方面有立竿见影的应用,使其在广泛的基因组研究中具有价值,”Chao说。“我们希望Splam能够促进对我们的基因组和其中的基因的更好理解。”


(全文结束)

大健康
大健康