新AI工具精确定位基因剪接New AI tool pinpoints gene splicing with unmatched precision

环球医讯 / AI与医疗健康来源:hub.jhu.edu美国 - 英语2024-12-11 23:00:00 - 阅读时长4分钟 - 1673字
约翰霍普金斯大学的研究人员开发了一种名为Splam的强大新AI工具,可以更准确地识别基因剪接位点,有助于科学家分析遗传数据,深入了解基因功能和突变如何导致疾病。
AI工具Splam基因剪接遗传数据突变疾病健康基因转录本基因组注释RNA测序
新AI工具精确定位基因剪接

约翰霍普金斯大学的研究人员开发了一种强大的新AI工具,称为Splam,可以识别基因中发生剪接的位置——这一进展可以帮助科学家更准确地分析遗传数据,提供新的见解,了解基因如何发挥作用以及突变如何导致疾病。他们的研究结果发表在《基因组生物学》上。

关键要点

  • 一种名为Splam的AI工具比现有方法更准确地分析遗传数据,探索突变与疾病之间的潜在联系
  • Splam通过识别剪接位点来工作,这些位点是细胞修剪掉非必需部分的地方
  • 识别剪接位点是组装基因转录本的关键步骤,有助于识别DNA的功能部分及其在体内的作用

“精确识别剪接位点对于理解细胞如何解释遗传指令至关重要,”联合首席作者Kuan-Hao Chao表示。他是惠廷工程学院计算机科学系的一名博士生,隶属于计算生物学中心(CCB)。“Splam使我们能够高效准确地分析遗传数据,展示突变如何影响我们的健康以及为什么同一基因在不同条件下可以产生不同的蛋白质。”

该项目的合作者还包括他的导师——布隆伯格杰出教授、计算生物学和基因组学教授兼CCB主任Steven Salzberg,生物医学工程和遗传医学副教授Mihaela Pertea(同时在计算机科学系有兼职),以及同时主修生物医学工程和计算机科学的四年级本科生Alan Mao。

细胞依赖基因来指导其功能,每个基因都包含有用的指令(称为外显子)和非必需的片段(称为内含子)。剪接是细胞去除非必需部分的过程,仅保留所需的部分。

据研究人员称,计算上识别剪接位点是现代遗传学研究中准确组装基因转录本的关键步骤,其中RNA测序实验测量基因在不同条件下的表达水平——基本上是判断基因是否开启或关闭。

“例如,癌症研究人员经常使用RNA测序技术比较健康细胞和癌细胞中的基因表达,”Chao说。

识别剪接位点在注释基因组中也非常重要,这涉及识别我们DNA的功能部分及其在体内的作用。基因组注释的一个熟悉应用是在基因检测服务中,如23andMe等公司提供的服务。这些测试分析您基因组的部分,告诉您关于您的祖先、健康风险和遗传特征的信息。基因组注释通过识别和解释这些人类基因组区域使其成为可能。

与最先进的“SpliceAI”工具相比,霍普金斯团队的“Splam”方法使用更短的DNA序列窗口来预测RNA剪接位点,使其模型更加生物现实,适用于研究,Chao表示。

该团队的Splam算法采用一个800个核苷酸的DNA序列——每个潜在的供体和受体位点两侧各有400个腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)——并输出每个碱基对作为供体位点、受体位点或都不是的概率。

“我们的算法试图成对识别这些供体/受体位点,就像细胞中的剪接体‘分子机器’在切除内含子时所做的那样,”Chao说。

研究人员开发了他们的算法,以在800个核苷酸的窗口内识别剪接接头——远小于SpliceAI所需的10,000个核苷酸。团队报告称,尽管需要较少的基因组数据,但Splam在剪接接头识别准确性方面优于SpliceAI。

在使用人类DNA训练深度学习模型后,研究人员还对其进行了其他物种基因代码的额外测试。

“关于深度学习方法的一个常见问题是,它们是否只是记忆训练数据,还是其预测模型能否应用于与其训练数据不同的数据,”Chao说。“因此,为了评估Splam是否学会了更通用的剪接规则,我们从三个逐渐更远的物种收集了数据,并在没有重新训练的情况下将算法应用于每个物种。”

该团队选择了黑猩猩、小鼠和芥菜科植物的基因组。随后的实验表明,Splam的生物启发设计在这些更远的DNA序列上仍然产生了高度准确的结果——表明其方法确实学到了许多动植物共享的基本剪接模式。

该团队的下一步包括将其模型应用于更多物种,并将其方法集成到现有的RNA测序管道中,以便在转录组组装中实际使用。

“我们的方法在改善转录组组装和减少剪接噪声方面有直接应用,使其在广泛的基因组研究中具有价值,”Chao说。“我们希望Splam能够为更好地理解我们的基因组及其内部的基因做出贡献。”


(全文结束)

大健康
大健康