在最近发表于《细胞》杂志的一项研究中,研究人员开发了一种深度学习模型“LucaProt”,这是一种基于转换器的人工智能模型,用于在来自不同生态系统的元转录组中检测高度发散的核糖核酸(RNA)依赖的 RNA 聚合酶(RdRP)序列。他们确定了 180 个 RNA 病毒超群和 161,979 种假定的 RNA 病毒物种,表明 RNA 病毒广泛存在,甚至在极端环境中也有。
背景:
RNA 病毒广泛存在并感染多种物种,然而由于大规模的病毒发现工作,它们在全球生态系统中的作用直到最近才得到认可。这些主要使用 RdRP 序列的研究,通过识别数千种新的病毒物种,扩大了已知的病毒圈。然而,当前的工具经常错过高度发散的 RNA 病毒,这促使需要改进的识别策略。
深度学习,特别是像卷积神经网络(CNNs)、循环神经网络(RNNs)和转换器这样的算法,通过提供更准确和灵活的病毒识别方法,彻底改变了生命科学的许多领域。虽然 CNNs 和 RNNs 是有效的,但它们在处理长或复杂序列时面临限制。转换器架构擅长捕捉短程和远程关系,为发现高度发散的 RNA 病毒提供了一个有前途的替代方案。
因此,本研究中的研究人员开发了一种基于转换器的人工智能(AI)工具,名为 LucaProt,它与 Diamond、HMMscan、HH-suite 和 PalmScan 等其他几种病毒发现工具进行了严格的基准测试。LucaProt 实现了最高的召回率(98.22%),并且在召回和长序列处理方面优于这些方法。此外,与这些工具相比,LucaProt 保持了较低的假阳性率,以从元转录组中检测高度发散的 RNA 病毒,有可能揭示隐藏的病毒多样性。
关于研究:
(A)在生态系统层面分析的样本的地理分布。饼图大小与样本数量(log10)正相关。DBSCAN 聚类算法应用于来自所有元转录组的 1,837 个纬度和经度点,将其分为 70 个聚类点。(B)不同生态系统中的样本总数。嵌入式条形图表示本研究中用于双 RNA 和 DNA 测序的样本。
总共分析了 10,487 个元转录组,包括 51 太字节的测序数据,其中 10,437 个是从国家生物技术信息中心数据库的序列读取档案中获得的,涵盖了水生、土壤、宿主相关和极端栖息地等不同环境。
此外,从南极洲和中国生成了 50 个数据集,涵盖海洋、淡水、土壤和沉积物样本。进行了测序和 DNA/RNA 提取。序列读取被组装成重叠群,并使用 ORFfinder 预测潜在的蛋白质。
采用了两种策略来识别潜在的病毒 RdRPs:LucaProt 和 ClstrSearch(一种基于序列相似性对蛋白质进行聚类的传统方法)。LucaProt 模型在 235,413 个样本上进行了训练,包括 5,979 个阳性和 229,434 个阴性序列,确保了一个全面和经过良好验证的数据集。
将结果与基于同源蛋白质聚类的另一种方法进行了比较。基准测试将 LucaProt 与 Diamond、HMMscan、HH-suite 和 PalmScan 工具进行了比较。LucaProt 优于这些传统工具,揭示了明显更多的新 RNA 病毒。
基于逆转录聚合酶链反应的测定验证了来自病毒超群的 RNA 生物的存在。此外,AlphaFold2 被用于预测病毒 RdRPs 的三维(3D)结构,并对其与已知病毒和真核聚合酶的结构相似性进行了全面评估。
结果和讨论:
LucaProt 显示出高准确性(0.014%假阳性)和特异性(1.72%假阴性)。使用这两种方法共鉴定出 513,134 个 RNA 病毒重叠群,代表 161,979 种潜在的病毒物种(RdRP 同一性超过 90%)和 180 个 RNA 病毒超群,与国际病毒分类委员会的现有病毒分类相当。
值得注意的是,LucaProt 鉴定出 70,458 种假定的独特病毒,包括 60 个以前未识别的超群,在所有测试方法中召回率最高。其中,99.9%的病毒重叠群和 87.2%的超群被两种方法共同识别,而 LucaProt 专门识别出另外的 444 个重叠群和 23 个超群。
LucaProt 在这些工具中实现了最高的召回率 98.22%。其他工具识别出的新病毒不到 LucaProt 专属新病毒的 42%。值得注意的是,LucaProt 召回了其他研究中超过 98%的 RdRPs。验证证实,基于 RdRP 基序和序列相似性,这 180 个新的病毒超群是 RNA 病毒。
进一步使用 AlphaFold2 进行的分析揭示了新识别的病毒 RdRPs 与现有病毒聚合酶之间的结构相似性,增强了对新型 RNA 病毒鉴定的信心。
该研究还发现了一些有史以来最复杂的 RNA 病毒基因组,包括一个长达 47.3 千碱基的基因组,是迄今为止发现的最长的 RNA 病毒之一。大多数 RNA 病毒基因组约为 2,131 个核苷酸。在新基因组中鉴定出了其他蛋白质,进一步强化了它们作为 RNA 病毒的分类。
RNA 病毒圈显著扩大,物种数量比以前的分类增加了 55.9 倍。在新发现的超群中发现了高系统发育多样性,表明存在更多发散的 RNA 病毒的潜力。
在 32 种生态系统亚型和 1,612 个地点发现了广泛的病毒存在,LucaProt 识别出的 33.3%的群体以前未被报道。α多样性,即生态系统内物种多样性的度量,在落叶等环境中最高,而病毒丰度在南极沉积物和海洋环境中达到峰值。
许多新的病毒超群主要是水生或基于沉积物的,少数与特定的宿主生态系统相关。然而,数据生成中的系统偏差可能会影响跨生态系统的比较。该研究的局限性包括对高度发散病毒的分类挑战,某些病毒组缺乏匹配的 DNA 数据,以及仅识别了侧重于 RdRP 片段的部分病毒基因组。
结论:
本研究通过使用深度学习和大规模元转录组分析确定了超过 251,000 种新的病毒物种和 180 个新的超群,增强了我们对 RNA 病毒圈的理解。这些发现突出了环境样本中病毒的巨大遗传多样性,强调了在与病毒病原体和生态系统动态相关的生态学和公共卫生方面持续研究的重要性。
期刊参考:
使用人工智能记录隐藏的 RNA 病毒圈。侯欣等人,《细胞》(2024 年),DOI:10.1016/j.cell.2024.09.027,


