深度学习人工智能模型扫描基因组数据“暗物质”以发现 70,000 种前所未见的 RNA 病毒Deep learning AI model scans 'dark matter' of genomic data to find 70,000 never-before-seen RNA viruses

环球医讯 / AI与医疗健康来源:www.fiercebiotech.com美国 - 英语2024-10-11 03:00:00 - 阅读时长4分钟 - 1956字
研究人员利用深度学习计算机模型揭示了世界上隐藏的大量病毒,包括约 70,000 种此前未被识别的新型 RNA 病毒。
深度学习人工智能RNA病毒基因组数据暗物质新物种健康影响病毒多样性RNA聚合酶
深度学习人工智能模型扫描基因组数据“暗物质”以发现 70,000 种前所未见的 RNA 病毒

尽管大多数 RNA 病毒不会感染人类,但该群体确实包括像 SARS-CoV-2、流感和埃博拉(如图所示)等著名的人类病原体。(iStock / Getty Images Plus)

世界上病毒绝对无处不在。这些传染性病原体被广泛认为是地球上最丰富的生物实体。但是,由于我们对其令人难以置信的多样性的了解有限,对病毒及其在我们世界中所起作用的全面理解受到了限制。

研究人员现在使用了一个深度学习计算机模型来揭示隐藏在我们世界和基因数据库中的数千种病毒。科学家们构建了一种工具,对从世界各地环境中收集的大量基因组数据进行扫描,确定了超过 160,000 种潜在的新 RNA 病毒物种,其中包括约 70,000 种以前从未被确认为潜在新物种的病毒。

多伦多大学的计算病毒学家 Artem Babaian 博士(未参与此项研究)在接受 Fierce Biotech 采访时表示:“这是一项具有里程碑意义的研究——不是发现的广度,而是他们做出发现的深度。他们专注于这些以前标准序列比对方法无法发现的 RNA 病毒。”

正如其名称所示,RNA 病毒具有由 RNA 而非 DNA 组成的基因组。尽管大多数病毒不会感染人类,但该群体确实包括像 SARS-CoV-2、流感和埃博拉等著名的人类病原体。RNA 病毒无处不在,包括在我们自己的家中。

悉尼大学的进化生物学家和病毒学家 Eddie Holmes 博士在接受采访时告诉 Fierce:“如果你去自家后院,你可以采集一份土壤样本,如果对该土壤进行测序,你会发现新的病毒。”

但是对一堆泥土中的所有遗传物质进行测序也会产生大量所谓的“暗物质”:与任何已知生物不紧密匹配的 DNA 和 RNA。Holmes 说,其中大部分物质被怀疑是病毒,部分原因是世界上的病毒数量众多,部分原因是 RNA 病毒尤其进化迅速。

正如 Holmes 所说,“RNA 本质上容易出错。”而 DNA 有能力纠正错误,RNA 则没有;当 RNA 病毒复制时,其基因组的变化会迅速累积,随着时间的推移,使病毒看起来不像其亲属。

为了在这种“暗物质”中找到隐藏的 RNA 病毒,由 Holmes 和中国中山大学的病毒学家 Mang Shi 博士领导的团队利用了所有 RNA 病毒都共有的一个特点:RNA 聚合酶。这是 RNA 病毒在复制时用于复制其基因组的蛋白质。由于其重要功能,其结构高度保守,尽管编码它的基因序列可能差异很大。

Holmes 说:“我们训练这种人工智能方法来识别已知的每种 RNA 聚合酶的结构,”解释说名为 LucaProt 的程序随后可以对新数据进行分类,并寻找产生看起来像 RNA 聚合酶的蛋白质的 RNA 序列。“瞧,它找到了。它找到了很多很多很多。”

Babaian 说:“他们基本上切入了深度学习的深层部分,而不是实际进行预测完整结构的昂贵计算步骤,然后进行涉及一整套不同工具的结构搜索。”

不过,Holmes 说运行该程序需要数周时间,他们与中国科技公司阿里巴巴合作以确保获得所需的计算能力。

该程序梳理了从世界各地测序的 51 太字节的数据,包括温泉、南极土壤、盐沼和堆肥堆。所有数据都存放在由美国国立卫生研究院的国家生物技术信息中心(NCBI)维护的公共序列读取档案中。

Holmes 说:“这是一个令人惊叹的宝藏。NCBI 就像科学领域相当于亚历山大图书馆的存在。一切都在那里。”

该团队测序的 161,979 种病毒中的一些与其他 RNA 病毒差异如此之大,以至于它们可以形成 180 个新的独立超群。Holmes 说发现一个新的超群类似于发现一个新的动物门类——这意味着其中一些病毒彼此之间的差异就像螃蟹与蚯蚓或猫与水母一样。

Holmes、Shi 及其同事已将 LucaProt 公开,以便其他研究人员可以使用它在自己的数据集中搜索新的 RNA 病毒。Holmes 认为新病毒可以帮助提供新的有用酶和蛋白质;例如,生活在温泉中的病毒将具有某种能够承受极端温度的 RNA 聚合酶。

他说:“从生化角度来看它是如何做到的?如果我们能发现 RNA 在那种温度下如何生存和复制,如果确实如此,那将是一种极其迷人的酶。”

对于 Babaian 来说,这些结果和其他类似结果只是冰山一角。他说,由于可用的数据以及分析这些数据的计算能力不断提高,“我们正处于对病毒组和病毒生物多样性理解的革命性变革之中。”

Babain 说,我们开始了解即使病毒不引起疾病,它们如何影响我们的健康,例如感染人类寄生虫弓形虫的病毒,似乎介导了寄生虫是否引起疾病。

他说:“当你深入、深入未知时,那就是你在医学上取得重大进展的时候。你必须了解病毒、我们、我们的环境和周围物种之间的相互联系。”

大健康
大健康