一项新的研究利用人工智能发现了 161,979 种新的 RNA 病毒,显著地扩大了我们对地球病毒多样性的理解。这些发现是通过使用机器学习模型分析基因数据而得出的,该模型识别出了隐藏在公共数据库中以前未被识别的病毒。
研究结果揭示了全球极端环境中存在的大量病毒,展示了 RNA 病毒的恢复力和适应性。这项研究为进一步探索病毒和微生物的多样性铺平了道路,有可能重塑科学家研究地球生态系统的方式。
关键事实包括:AI 从基因数据中识别出超过 161,000 种新的 RNA 病毒物种;在极端环境中发现了病毒,突出了它们的适应性;这是迄今为止最大的病毒发现研究,极大地扩展了对病毒多样性的认识。
该研究由悉尼大学提供。
“人工智能(AI)已被用于揭示生活在我们脚下和全球每个角落的多样化和基础生命分支的细节。”利用机器学习工具发现了 161,979 种新的 RNA 病毒物种,研究人员认为这将极大地改善地球上生命的图谱,并可能有助于识别数百万种尚未被表征的病毒。该研究发表在《细胞》杂志上,由一个国际研究团队进行,是有史以来发表的最大的病毒物种发现论文。
AI 工具经过训练,能够根据所有 RNA 病毒用于复制的蛋白质的序列和二级结构来计算暗物质并识别病毒。悉尼大学医学与健康学院医学科学学院的资深作者爱德华兹·霍姆斯教授说:“我们得以窥视地球上原本隐藏的生命部分,揭示了非凡的生物多样性。”
霍姆斯教授说:“这是在一项研究中发现的新病毒物种数量最多的一次,极大地扩展了我们对生活在我们周围的病毒的认识。”“一下子发现这么多新病毒令人震惊,这只是冰山一角,开启了一个发现的世界。还有数百万种有待发现,我们可以将同样的方法应用于识别细菌和寄生虫。”
尽管 RNA 病毒通常与人类疾病有关,但它们也存在于世界各地的极端环境中,甚至可能在全球生态系统中发挥关键作用。在这项研究中,它们被发现在大气、温泉和热液喷口等地生存。
霍姆斯教授说:“极端环境携带如此多种类型的病毒,这只是它们非凡的多样性和在最恶劣环境中生存的坚韧的另一个例子,可能为我们提供病毒和其他基本生命形式如何形成的线索。”
AI 工具的工作原理:研究人员构建了一个深度学习算法 LucaProt,以计算大量的基因序列数据,包括长达 47,250 个核苷酸的冗长病毒基因组和基因组复杂信息,从而发现了超过 160,000 种病毒。
霍姆斯教授说:“这些病毒中的绝大多数已经被测序,并在公共数据库中,但它们差异太大,以至于没有人知道它们是什么。”“它们构成了通常所说的序列‘暗物质’。我们的 AI 方法能够组织和分类所有这些不同的信息,首次揭示了这种暗物质的意义。”
AI 工具经过训练,能够根据所有 RNA 病毒用于复制的蛋白质的序列和二级结构来计算暗物质并识别病毒。它能够显著加快病毒发现的速度,如果使用传统方法,这将是非常耗时的。
来自中山大学的共同作者、该研究的机构负责人芒石教授说:“我们过去依赖繁琐的生物信息学管道来发现病毒,这限制了我们能够探索的多样性。”“现在,我们有了一个更有效的基于 AI 的模型,它具有出色的灵敏度和特异性,同时让我们能够更深入地研究病毒多样性。我们计划将这个模型应用于各种应用。”
共同作者、阿里云智能的天妃实验室的赵荣丽博士说:“LucaProt 代表了前沿 AI 技术和病毒学的重要整合,表明 AI 可以有效地完成生物探索任务。”“这种整合为从新的角度进一步解码生物序列和解构生物系统提供了有价值的见解和鼓励。我们将继续在病毒学的 AI 领域进行研究。”
霍姆斯教授说:“下一步显然是训练我们的方法来发现更多这种惊人的多样性,谁知道还有什么额外的惊喜在等着呢。”
资金来源:研究人员声明没有竞争利益。该研究得到了中国国家自然科学基金、深圳科技计划、广东省自然科学基金、广东省“珠江人才计划”创新创业团队项目、香港创新科技基金(ITF)和卫生及医学研究基金的支持。霍姆斯教授由澳大利亚国家卫生和医学研究委员会的研究员资助,并由香港特别行政区创新科技委员会管理的 AIR@InnoHK 资助。


