Nayeon Kim¹, Junyeong Ma¹, Wonjong Kim¹, Jungyeon Kim¹, Peter Belenky² & Insuk Lee¹,³
实验与分子医学 第56卷,第1501–1512页 (2024)
摘要
最近大量证据表明共生细菌与人类疾病密切相关,这催生了生物医学研究的一个新领域:微生物组医学。这一新兴领域旨在理解和利用人类微生物群及其衍生分子进行疾病预防和治疗。尽管这一生态系统具有复杂且层次化的组织结构,但多年来大多数研究依赖于16S扩增子测序,这是细菌系统发育和分类学的遗留方法。虽然先进的测序技术已能以较低成本分析整个微生物群,但直到最近,将相对较短的核苷酸信息转化为微生物组的功能和分类组织仍面临挑战。在过去的十年中,旨在直接从全宏基因组测序数据中重建微生物基因组的基因组解析宏基因组学取得了显著进展,不断揭示各种与人类相关的微生物群落的奥秘。公共数据库中全宏基因组测序数据的量迅速增加,新型宏基因组组装基因组和蛋白质序列的编目也在不断增长。本综述概述了基因组解析宏基因组学研究人类微生物组的能力和方法,重点是研究人类肠道的原核微生物群。正如解码人类基因组及其变异标志着基因组医学时代的开始,解开共生微生物的基因组及其序列变异正引领我们进入微生物组医学时代。基因组解析宏基因组学是这一转变的关键工具,可加速我们实现这些科学和医学里程碑的进程。
引言
人体是多种共生微生物细胞的家园,这些细胞数量超过宿主自身细胞,并对人类生理产生重大影响。随着关于共生微生物在人类疾病中作用的证据不断积累,微生物组医学已成为生物医学研究的一个新领域。该领域旨在利用人类微生物群及其衍生分子预防和治疗疾病。实现这一目标需要全面了解人类微生物组的分类和功能组织。
历史上,微生物群落研究一直是微生物生态学领域的一部分,最初主要关注环境微生物。然而,人体内存在大量微生物群落的发现扩大了这一领域的范围。多年来,人类微生物组研究采用了基于细菌系统发育和分类学的方法,特别是16S rRNA基因序列分析¹,这种方法足以揭示患病微生物组与其健康对应物之间的分类组成差异。然而,16S rRNA序列有限的分类分辨率²及其固有的无法进行功能分析的缺陷,阻碍了进一步的发展,包括识别直接影响宿主生理的微生物组功能元素。这种情况类似于人类基因组可用之前的人类遗传学。缺乏全面的人类基因组图谱意味着疾病基因的搜寻基于稀疏的基因组标志物,导致只能识别与疾病相关的广泛染色体区域。这种方法通常需要经过多年的后续研究才能准确定位负责的基因。人类基因组的解码和单核苷酸变异的编目加速了与疾病相关基因和遗传变异的发现,从而开启了基因组医学时代³。
在本综述中,我们主张微生物组医学中类似的转变。解码所有共生微生物物种的完整基因组并编目其遗传成分,将加快从人类微生物组开发新的生物标志物和治疗药物的进程。多年来,基因组组装,特别是对于尚未培养的物种,一直面临技术挑战。然而,基因组解析宏基因组学的最新进展带来了研究的重大变化。已经开发出多种计算方法,用于从宏基因组鸟枪测序数据中进行从头基因组组装,导致以宏基因组组装基因组(MAGs)形式的草图基因组迅速积累。本综述讨论了MAG构建的计算方法及其对人类微生物组研究的影响,特别关注肠道微生物组研究。此外,虽然相同的研究框架可应用于研究体内的各种微生物群落,但本综述主要关注原核共生微生物的研究,并指出MAG重建也可用于共生真菌和病毒。
16S rRNA基因测序的固有限制
16S rRNA基因测序因其成本效益和直接的生物信息学解释而成为微生物群落分类分析的流行方法,使其广泛可用。然而,这种方法有几个与其分析目标(16S rRNA序列)相关的固有限制。
首先,16S rRNA序列的变化通常不允许进行种级分类。最近的研究表明,即使使用长读测序分析整个16S区域,也可能不足以进行种级分类区分⁴。此外,同一物种微生物之间的亚种水平差异可能对宿主生理产生重大影响,但这些细微差别在微生物组的分类分析中常常被忽视。其次,16S rRNA序列不提供有关微生物功能能力的信息。尽管PICRUSt⁵等工具允许基于16S rRNA序列预测代谢途径,但结果仅是基于与给定16S rRNA序列相关的一组有限代表性基因组的推断。第三,16S rRNA序列对原核生物是独特的,使得使用此序列信息无法检测非细菌共生体,如真菌、病毒和原生生物。第四也是最关键的一点是,研究被认为是"微生物暗物质"的新物种具有挑战性,因为16S rRNA序列的解释严重依赖于由已知细菌物种填充的数据库。这种依赖性可能阻碍对先前未表征微生物实体的发现和理解。
全宏基因组测序(WMS)的微生物组分析:一种新范式
人类微生物组计划(HMP)⁶与人类基因组计划不同,它没有从测序数据中产生参考基因组。这是由于从各种细菌来源的混合序列读数中组装单个细菌基因组的复杂性。当时,计算算法还不够先进,无法有效分离和准确组装这些基因组。尽管如此,HMP在将微生物组研究转向WMS方面发挥了关键作用,WMS涉及对样本中的所有遗传物质进行测序,以提供对微生物组更全面的理解。
HMP通过向公众发布健康人类微生物组的WMS数据集,对人类微生物组研究做出了重大贡献。这些数据集包括来自肠道的541个样本、来自阴道微生物组的215个样本、来自口腔微生物组的1090个样本以及来自皮肤微生物组的56个样本,突显了该项目的广泛范围及其对理解人类健康的影响。这一发布促进了多种用于分析的生物信息学工具的开发。HMP的第二阶段,称为HMP2或iHMP,旨在提供对宿主-微生物组相互作用随时间变化的更全面理解⁷。为HMP2生成了大量涵盖宿主和微生物组相互作用的多组学数据。这些数据包括与妊娠和早产、炎症性肠病以及前驱糖尿病相关的人类肠道和阴道微生物组的WMS数据。因此,公共数据库中来自另外2000个肠道样本和930个阴道样本的WMS数据得到了丰富,从而进一步推进了人类微生物组研究的可用资源。得益于这一大规模联盟项目和众多其他研究,到2023年,人类肠道微生物组的公共WMS数据集数量已快速增长,超过110,000个样本(图1)。然而,一个显著的问题是数据中存在明显的地理偏差。大多数公共WMS数据来自美国、中国和一些欧洲国家等少数国家,导致亚洲和非洲大多数国家的肠道微生物组数据代表性不足。这一差距至关重要,因为肠道微生物群组成受饮食和生活方式的严重影响⁸,⁹,¹⁰。因此,当前的人类肠道微生物组数据景观缺乏全面性。在未来的样本收集和分析中纳入代表性不足的人群,对于更准确地了解全球人类肠道微生物组至关重要。
图1:按国家和年份提交到NCBI序列读取存档(SRA)的人类肠道全宏基因组测序(WMS)样本分布。
条形图显示了每年提交到NCBI SRA的人类肠道WMS样本的累积数量。饼图详细说明了不同国家对总样本提交的贡献;截至最后记录年份,美国贡献了大部分,其次是中国、瑞典和其他国家。贡献少于2%的国家归入"其他"类别。此图突显了公共数据库中人类肠道WMS数据的增长率和地理偏差。
基因组解析宏基因组学:实现人类微生物组的多方面研究
基因组解析宏基因组学是微生物组研究中的一种变革性方法,深入研究混合微生物群落的DNA,直接从宏基因组数据中组装和分析单个基因组。与传统的16S rRNA测序相比,该技术代表了重大进步,提供了对人类微生物组的丰富理解深度和前所未有的见解(图2)。
图2:微生物组分析中16S rRNA测序和全宏基因组测序(WMS)的比较。
a 16S rRNA测序分析可用于进行分类分析和基于分类谱的功能推断。b 通过WMS进行微生物组分析的各种途径,包括无组装和基于组装的方法。该图强调了WMS与16S rRNA测序相比,在理解微生物组方面提供的全面见解。
在该方法的核心,基因组解析宏基因组学允许组装跨越各种微生物(包括细菌、病毒和真菌)的新基因组。包括这些新物种基因组扩展了系统发育树,从而将先前无法检测的物种带入焦点¹¹。此外,物种水平上基因组数据的日益可用性促进了对物种内变异的深入研究¹²。这一进展为开发全面的泛基因组¹³奠定了基础,这将提供对物种内遗传多样性的更详细理解。研究人员现在能够发现许多新的编码序列,这可能导致新宏基因组蛋白质家族的识别¹⁴,¹⁵。细菌物种内的基因组比较促进了共生细菌的个体内和个体间传播的追踪¹⁶,¹⁷,而基于基因组的分析则通过基因突变和水平基因转移提供了对微生物组进化的窗口¹⁸。种内遗传多样性反映了微生物组在特定宿主环境中的适应旅程¹⁹,从而揭示了微生物基因组的单核苷酸变异(SNVs)或结构变异(SVs)与宿主表型之间的潜在统计关联²⁰,²¹。最后,MAG使我们能够对未培养的细菌物种进行基因组尺度的代谢建模²²,这些物种代表了人类肠道微生物组的很大一部分,最终允许对个体微生物组进行代谢建模²³。
从宏基因组测序读数组装单个微生物基因组
从源自各种微生物的混合短读序列生成MAG是基因组解析宏基因组学的第一步。MAG的构建包括两个步骤:组装和分箱(图3)。
图3:从宏基因组样本重建宏基因组组装基因组(MAG)的工作流程。
该流程图概述了从粪便样本生成MAG的过程。该程序从收集粪便样本开始,然后进行鸟枪宏基因组测序以获取片段化DNA。然后将DNA片段组装成重叠群(contigs)。这些重叠群基于核苷酸组成和覆盖深度聚类,通过分箱过程形成MAG。最后一步是对组装的基因组进行质量评估,评估完整性和检查污染。
在初始组装步骤中,短读被拼接成较长的重叠群,类似于拼图的组装,其中这些短读的重叠区域充当连接元素。通常,有两种组装模型:重叠-布局-共识(OLC)模型和De Bruijn图。在OLC模型中,每个读数在图中表示为一个节点,读数之间的重叠表示为边。然而,随着测序深度的增加,这种方法可能导致大而复杂的图。相比之下,De Bruijn图模型通过将读数划分为k-mers²⁴来提高可扩展性。metaSPAdes²⁵和MEGAHIT²⁶等短读组装器采用这种策略,将短读划分为k-mer片段,然后使用De Bruijn图将这些片段组装成扩展的重叠群²⁷。组装过程可以通过两种方式完成:单组装,即对每个样本独立进行;和共组装,即在合并多个样本后进行²⁸,²⁹。每种方法都有不同的优缺点(补充表1a)。与互连的海洋和土壤等环境样本不同,人类肠道微生物组代表了一个在个体之间变化的独特环境。因此,保留亚种特异性变异(如SNVs)至关重要。亚种特异性的保留可以通过De Bruijn图中的不同路径实现。然而,此过程导致生成大量片段化的重叠群³⁰,³¹。因此,我们建议采用单组装方法。如果目标是捕获低丰度分类群,建议增加测序深度而不是进行共组装³²。
接下来是分箱步骤,将源自同一基因组的重叠群分组为箱,每个箱对应一个特定的基因组。分箱涉及基于序列组成和覆盖深度对相似重叠群进行聚类³³,³⁴,³⁵,³⁶。序列组成指的是核苷酸特征,包括k-mers。鉴于一个物种通过整个基因组中k-mers和GC比率的恒定性来区分³⁷,³⁸,³⁹,这些特征可用于将重叠群聚类为基因组箱。四核苷酸频率(TNF)是最常用于此目的的度量标准,并已被证明在与其他k-mer大小的比较中表现更佳³⁶。此外,来自同一基因组的重叠群在样本中共丰度⁴⁰,使得具有相似覆盖深度的重叠群更有可能属于同一基因组。覆盖深度可从单个样本(单覆盖分箱)和从样本组(多覆盖分箱)计算⁴¹。这两种方法各有优缺点(补充表1b)。基于单个样本内共丰度的单覆盖分箱可能会意外地将污染重叠群引入基因组箱,这会影响下游分析。为减轻此问题,我们建议采用多覆盖分箱,使用多个样本中的共丰度。实施此方法需要仔细考虑在多覆盖分箱中要一起分析哪些样本,以确保准确性并降低污染风险。
此外,在将来自同一物种的重叠群聚类时,各种工具在分箱中使用的特征和算法有所不同(补充表1c)³³,³⁴,³⁵,⁴²,⁴³,⁴⁴,⁴⁵,⁴⁶,⁴⁷。鉴于没有一种工具在所有情况下都普遍优于其他工具⁴⁸,⁴⁹,使用几种分箱工具并通过集成方法组合其结果很常见。合并步骤(称为箱优化)将多个分箱工具的结果组合成具有最高质量重叠群组合的单个箱⁵⁰。用于此过程的工具在补充表1d中进行了总结⁵¹,⁵²,⁵³。
由于生成的基因组序列可用于各种下游分析,我们需要测量最终箱的质量,即单个基因组序列。虽然有N50和重叠群数量等定量质量指标,但有两个绝对指标用于测量基因组质量,这些指标普遍定义MAG质量:完整性和污染程度⁵⁴,⁵⁵。基因组序列的可靠性与其完整性成正比,与污染程度成反比。根据广泛认可的宏基因组组装基因组(MIMAG)最低信息标准⁵⁶,完整性超过50%且污染低于10%的基因组被归类为中等质量草图基因组。相比之下,完整性超过90%且污染低于5%的基因组被视为近乎完整的草图基因组。完整性指组装的基因组序列覆盖实际基因组的程度。基因组序列的完整性低可能导致在推断其功能能力或进行代谢建模时低估物种的功能能力⁵⁷。基因组序列中的污染表示存在不属于正在测序的基因组的外来片段⁵⁸。基因组序列中的污染可能源于多种来源,包括在分箱过程中由于相似的序列组成而混合密切相关的基因组。此外,分类学上遥远的基因组可能因各种原因而被污染。有各种计算工具可用于检测基因组中的污染(补充表1e)⁵⁴,⁵⁹。为了进行全面的质量控制,由于其不同的优势,建议使用多种工具⁶⁰,⁶¹。污染的另一个常见来源是宿主序列(如微生物组研究中的人类DNA)或真菌和病毒序列的包含。特别是对于涉及真核生物或病毒序列的这种第三类污染,需要格外小心。
通过MAG扩展系统发育及其分类
生物信息学的最新进展和宏基因组测序成本的降低大大促进了需要准确分类的细菌MAG的大规模构建。传统上,细菌基因组的分类依赖于国家生物技术信息中心(NCBI)分类法,这是一种基于原核生物国际命名法规的系统⁶²。然而,这种基于共识的命名系统往往难以跟上新物种的快速识别和分类。为了解决这些挑战,对新细菌和古菌基因组进行分类的自动和客观方法涉及将其整合到参考系统发育树中。基因组分类数据库(GTDB)⁶³,一个参考细菌分类数据库,为此提供了当代解决方案。与通常使用16S rRNA区域进行分类的NCBI分类法不同,GTDB基于120个特定的单拷贝标记蛋白对细菌基因组进行参考。GTDB还努力纠正传统分类中的常见问题,例如移除多系群以使系统发育与分类法一致⁶⁴,以及标准化不平等的分类等级⁶⁵。GTDB工具包(GTDB-Tk)⁶⁶被开发用于通过将其置于GTDB框架内来促进新基因组的准确分类。这种系统发育参考允许通过确定其在系统发育中的位置,基于基因组序列对新物种进行分类注释。虽然GTDB中目前大多数物种都带有非标准的占位符名称,但该系统允许基于基因组序列对新物种进行分类注释,方法是推断其在系统发育中的位置。
许多MAG揭示了新的微生物物种,从而显著扩展了当前的系统发育树。这一进展在人类肠道微生物组研究中尤为明显,其中已分离的物种数量有限,绝大多数仍未培养⁶⁷。例如,迄今为止,在人类参考肠道微生物组(HRGM)³²中编目的原核物种中,不到20%拥有至少一个来自分离菌株的组装基因组(分离基因组),大多数物种仅由MAG定义(图4)。值得注意的是,几个大的细菌分类群尚未有任何分离基因组。随着通过MAG组装未培养物种基因组的日益便捷,代表原核生物生命的系统发育树有望迅速扩展⁶³,⁶⁸。
图4:拥有分离基因组和宏基因组组装基因组(MAGs)的物种或属与仅拥有MAG的物种或属的比较。
a 系统发育树代表了HRGM中编目的5414种微生物物种,其中893种(16.5%)在外环上标记了至少一个分离基因组。b 柱状图比较了仅由分离基因组组成、仅由MAG组成以及同时拥有分离基因组和MAG的属的数量。"非单一属"列显示了排除由单个物种代表的属后的数字。此可视化强调了MAG在代表微生物多样性方面对分离基因组的补充程度,特别是在非单一属中。
MAG的功能注释:理解新基因组
编译基因组的部分列表是理解细菌物种的基本步骤,包括预测MAG中的开放阅读框(ORFs)及其功能的注释。最近的一项基准研究评估了各种基因预测工具,发现没有普遍优越的工具⁶⁹。然而,Prodigal⁷⁰,被广泛认为是该领域中最流行的工具,在不同场景中始终表现出稳健的性能。Prodigal通过无监督学习识别序列中的关键特征,如核糖体结合位点(RBS)基序、起始密码子使用和编码统计。这种方法允许对非模型细菌生物体进行有效的基因预测。一旦预测了ORFs,它们就会经历自动功能注释,其中每个基因都根据其与已知蛋白质的同源性分配功能术语。用于此类同源功能注释的广泛使用的数据库是eggNOG⁷¹,其中包含数百万个直系同源群(OGs)。与其他注释工具相比,eggNOG-mapper⁷²特别值得注意的是其高准确性,这可以通过有效区分旁系同源物(可能具有不同功能的相似序列)来实现⁷³。提供同源功能注释的其他工具包括InterProScan⁷⁴、Prokka⁷⁵、Bakta⁷⁶、DRAM⁷⁷和MicrobeAnnotator⁷⁸。功能注释工具利用各种数据库提供注释,主要包括KEGG(途径/直系同源)⁷⁹、基因本体⁸⁰、Pfam⁸¹和碳水化合物活性酶数据库(CAZy)注释⁸²。这些数据库因其在生物研究各个领域的综合资源而被广泛使用。
基因组挖掘是识别原核基因组中具有特殊功能基因的关键方法,特别是在抗生素耐药性方面,由于抗生素的广泛使用,这对人类健康是一个日益严重的问题。这种过度使用导致了抗生素耐药病原体的出现⁸³。抗生素耐药基因(ARGs)可能起源于共生细菌,当它们通过水平基因转移(HGT)转移到病原体时,就会成为重大风险⁸⁴,⁸⁵,⁸⁶。最近对人类肠道微生物组的研究表明,抗生素消耗与微生物组中ARGs的流行之间存在关联⁸⁷,⁸⁸,⁸⁹。ARGs的检测通常涉及使用RGI⁹⁰或ABRicate⁹¹等工具将序列与已知ARG参考数据库进行同源比对以进行识别。对于识别新的ARGs,还使用了隐马尔可夫模型(HMM)方法(如ResFam⁹²或fARGene⁹³)和深度学习技术(如deepARG⁹⁴或PLM-ARG⁹⁵)。这些方法依赖于已知ARG序列的数据库进行准确识别。整合多个数据库(包括CARD⁹⁰、ResFinderFG⁹⁶和MEGARes⁹⁷)以增强ARG检测的全面性和准确性很常见。
抗菌肽(AMPs)是短肽,通常由少于100个氨基酸组成⁹⁸,可抑制包括细菌、真菌、寄生虫和病毒在内的各种微生物的生长⁹⁹。由于其抗炎和免疫调节特性,这些肽正在被评估为潜在的抗生素替代品¹⁰⁰。鉴于人类肠道微生物组的多样性,预计它将是新型AMPs的丰富来源¹⁰¹。研究越来越多地关注源自人类肠道微生物组的AMPs,因为它们可能对人类细胞无毒¹⁰²。基于机器学习的方法在识别AMPs方面已被证明比基于同源的方法更有效,这归因于它们的短长度¹⁰³,¹⁰⁴。此外,最近的努力集中在使用深度学习技术发现人类肠道微生物组内的新型AMP候选物¹⁰²,¹⁰⁴,¹⁰⁵。
通过MAG扩展泛基因组:揭示单个微生物物种的全部功能潜力
单个物种MAG的收集提供了对其功能潜力的洞察,通常概念化为泛基因组,其中包括物种内的所有基因,包括核心基因组(包含大多数菌株共有的基因)和附属基因组(由仅在部分菌株中发现的基因组成)¹⁰⁶,¹⁰⁷。MAG的纳入导致许多物种的泛基因组规模显著扩大,超过了仅由分离基因组构建的泛基因组中观察到的规模。这一现象通过HRGM中Akkermansia muciniphila的泛基因组分析得到例证(图5)。附属基因组对亚种内的功能多样性¹⁰⁸至关重要,对不同宿主的适应起着关键作用,并可能与致病特征相关¹⁰⁹,¹¹⁰。因此,开发区分核心和附属基因组的全面泛基因组对于更深入地理解不同宿主群体中微生物物种的多样性至关重要。
图5:通过分离株和宏基因组组装基因组(MAGs)扩展Akkermansia muciniphila泛基因组。
该图显示了Akkermansia muciniphila泛基因组规模(基因计数)随着更多基因组测序而增长。实线表示仅分离基因组的稀释曲线,显示泛基因组规模初始快速增长,随着基因组数量增加开始趋于平稳。虚线代表同时考虑分离株和MAGs时的外推曲线,表明更大的泛基因组。这说明了纳入MAGs对理解该物种基因组多样性的影响,突显了MAGs如何大幅增加已知的基因库,超出了仅从分离株中观察到的范围。
进行泛基因组分析的基本方法包括收集物种的所有蛋白质序列并对它们进行聚类以识别同源基因¹¹¹。虽然这种方法效率高,但它不能区分旁系同源物,即基因组内基因重复产生的基因,这些基因通常进化出不同的功能¹¹²。一种更高级的技术在保留基因邻域信息的同时对同源基因进行分组,使用基于图的方法¹¹³。这种策略在Roary¹¹⁴、PPanGGOLiN¹¹⁵和panaroo¹¹⁶等泛基因组分析工具中被广泛使用。然而,这些工具在准确对弱系统发育保守的基因进行分组时可能会遇到困难,特别是那些受不同物种间HGT影响的基因¹¹¹。
基因组质量在泛基因组分析中起着关键作用。MAG虽然易于获取,但通常面临碎片化组装和分箱过程中的潜在污染等质量问题。碎片化组装可能导致基因丢失,特别是在重叠群末端,这可能影响核心基因组。相反,污染可能导致附属基因组中的假阳性,导致明显的扩展¹¹⁷。Panaroo是MAG泛基因组分析中广泛使用的工具,擅长处理与MAG相关的挑战,如截断末端和潜在污染,尽管它并非专门为MAG设计。最近,ggcaller¹¹⁸作为一种新工具被引入,用于解决泛基因组分析中的类似挑战。
为特定环境编目微生物基因组:迈向全面的参考微生物组
微生物组样本的分类和功能分析可以通过基于组装或无组装的方法实现。基于组装的方法涉及将序列读数从头组装成重叠群和物种箱,虽然不依赖于参考微生物基因组,但耗时且计算密集。因此,对于人类肠道等常见研究环境,首选方法是使用参考微生物基因组的无组装方法。MAG的广泛收集促进了针对特定环境设计的生物群落特异性参考数据库的深入研究¹¹⁹。这些参考为特定环境提供了丰富的基因组和蛋白质序列来源,有助于识别先前未知的基因组和蛋白质。使用生物群落特异性参考作为数据库对于研究复杂环境(如人类肠道微生物组)特别有利,无需从头组装即可快速准确地对宏基因组样本进行分类和功能分析。
有几个针对人类肠道的参考微生物基因组的独特目录。统一人类胃肠道基因组(UHGG)¹²⁰是一个综合目录,合并了三个先前的大规模人类肠道细菌基因组集合¹¹,⁶¹,⁶⁷。UHGG提供了跨越4644个原核物种的204,938个非冗余基因组。然而,UHGG集合表现出地理偏差,主要代表来自美国、中国、丹麦和西班牙的样本,因此缺乏来自其他各种地区的肠道微生物的代表性。为了减轻这一限制,引入了HRGM³²,在其中添加了来自韩国、印度和日本三个东亚国家的粪便宏基因组样本的MAGs。HRGM将范围扩大到跨越5414个原核物种的232,098个非冗余基因组,与UHGG相比,基因组和物种数量均增加了约10%。这些目录大大提高了分类读数的分类能力,超出了传统目录(如参考序列(RefSeq)数据库)的可用范围,从而强调了拥有全面目录对于研究人类肠道微生物组的重要性³²,¹²⁰。此外,还产生了针对代表性不足的地理区域(如以色列¹²¹、新加坡¹²²和内蒙古¹²³)的额外肠道微生物组目录。此外,对三岁以下儿童粪便宏基因组中MAGs的编目揭示了许多新的微生物物种,为研究早期人类肠道微生物组提供了宝贵的见解⁶¹。
序列解析微生物组分析:人类微生物组的群体遗传学视角
基因组解析微生物组分析的关键优势在于将基因组学应用于研究人类微生物组。随着各种亚种的众多基因组的获取,探索人类微生物组内物种的遗传多样性已成为可能¹²。这种遗传变异对多种应用至关重要,包括追踪相同菌株、识别特定菌株与宿主表型之间的联系,以及发现与宿主表型相关的细菌遗传变异¹²⁴。利用菌株间单核苷酸变异(SNVs)的菌株水平分析一直具有重要作用¹²⁵。最近的研究表明,细菌SNVs与宿主表型(如体重指数)相关,突显了微生物组研究中核苷酸水平多样性的重要性²¹。通过检查其与人类健康的关系,也对人类微生物组中细菌结构变异(SVs)进行了分析工作²⁰。例如,人类肠道细菌中的SVs与胆汁酸代谢¹²⁶和对免疫检查点抑制剂的反应¹²⁷相关,从而突显了基因组解析分析在理解人类微生物组方面提供的重大见解。
检测细菌遗传变异的传统方法涉及培养微生物、分离其基因组、对其进行测序,然后通过全基因组比对识别错配¹²⁸。然而,这种方法对人类肠道微生物组效果较差,因为很大一部分微生物组仍未培养。一种替代策略,宏基因分型,涉及将WMS读数与参考微生物基因组对齐以识别遗传变异;这种策略为分析人类肠道微生物组提供了可行的解决方案。基于读数对齐的宏基因分型的关键工具包括StrainPhlAn¹²⁹、metaSNV¹³⁰和MIDAS¹³¹。这些方法虽然全面,但耗时且需要高读数覆盖度以准确区分实际遗传变异和测序错误。为了克服这些限制,已开发出使用精确k-mer匹配算法进行宏基因分型的新工具,如GT-Pro¹³²。基于k-mer的方法比基于读数对齐的技术更快,尽管有时可能不太准确。
宏基因分型已成为探索微生物群落在菌株水平上传播的关键工具。宏基因分型的应用范围从研究体内微生物转移(如从口腔到肠道)到调查特定疾病如何与口腔到肠道的微生物传播相关¹⁷,¹³³。除了个体水平的研究外,宏基因分型对于检查个体间的微生物转移也至关重要,包括从母亲到婴儿的垂直传播以及家庭或更大人群中微生物的共享¹⁶,¹³⁴。宏基因分型的另一个重要应用是分析粪便微生物群移植(FMT)后肠道微生物组组成中菌株水平的变化,为这种治疗干预提供了宝贵的见解¹³⁵,¹³⁶,¹³⁷。这些例子突显了宏基因分型在各种与传播相关研究领域中的多功能性和潜在有用性。
宏基因分型还被证明在追踪肠道微生物组的进化动力学方面有效,既在个体内也在不同个体间。当应用于单个人的纵向样本时,该技术允许比较个体内和个体间的菌株相似性。宏基因分型还使观察特定物种菌株如何随时间在个体内进化成为可能¹²⁹,¹³⁸,¹³⁹,¹⁴⁰,¹⁴¹。此外,宏基因分型已用于检测肠道微生物中因外部影响(如抗生素治疗)而发生的遗传变化¹⁴²。这些应用表明,宏基因分型在更广泛的研究中具有相当大的潜力,特别是在检查各种因素如何诱导肠道微生物中的遗传变异方面。
MAG的代谢建模:实现个人微生物组的代谢模拟
随着个性化医学的发展,模拟宿主-微生物组代谢相互作用对于预测健康结果和定制治疗变得至关重要¹⁴³,¹⁴⁴,¹⁴⁵。过去,代谢工程领域主要使用为具有完整基因组序列的可培养物种重建的基因组尺度代谢模型(GEMs)来预测遗传内容¹⁴⁶,¹⁴⁷。目前,MAG可用性的最新激增为重建尚未培养的肠道共生微生物的GEMs打开了大门。
重建GEMs的主要目标是绘制特定生物体的行为并预测其在单个模型中的相互作用。基因组序列的重建是一个细致且费力的过程,需要彻底的整理。鉴于人类微生物组中微生物的巨大多样性,包括数千个物种,该过程的自动化至关重要。为此,已开发出几种用于自动GEM重建的工具,如RAVEN¹⁴⁸、Pathway Tools¹⁴⁹和merlin¹⁵⁰,这些工具大大有助于基于MAG的代谢建模。值得注意的工具包括ModelSEED¹⁵¹,¹⁵²、CarveMe¹⁵³和gapseq¹⁵⁴。生成的GEMs可以使用MEMOTE¹⁵⁵进行评估,该工具提供了质量评估的标准化方法。该工具确保GEMs满足准确性及完整性的特定标准,从而促进其在研究和应用中的使用。
ModelSEED是一个基于网络的平台,简化了生成草图代谢模型的过程。该平台利用SEED框架管道,该管道从组装基因组序列开始,并将其提交到RAST注释服务器进行遗传内容预测¹⁵⁶。此过程涉及构建基因-蛋白质-反应关联,生成生物质反应,组装反应网络,以及分析反应可逆性热力学。最终结果是一个优化的草图模型。AGORA项目使用ModelSEED管道,通过将MAG的自动草图模型生成与手动整理相结合,为人类肠道细菌生成了7000多个GEMs¹⁵⁷,¹⁵⁸。
CarveMe是一个命令行工具,设计用于GEMs的快速自动重建。该过程从基于BiGG Models¹⁵⁹中的反应和代谢物创建通用草图模型开始,并通过添加手动注释的细菌代谢关键方面来完善通用模型。CarveMe然后使用称为"雕刻"的过程为特定物种定制此模型,包括填补缺口并移除对每个物种不相关的反应和代谢物¹⁵³。该管道在保持关键代谢功能的同时,从基因组序列中快速重建代谢模型。
gapseq是另一种用于模型重建的自动工具,它利用多个生物化学数据库从遗传内容预测途径。与其他工具不同,它的反应数据库源自UniProt¹⁶⁰蛋白质序列数据库和转运蛋白分类数据库(TCBD)¹⁶¹,包含131,207个唯一序列¹⁵⁴。这些序列促成了15,150个反应和8,446个代谢物,它们被整合到用于重建和填补缺口的通用模型中,从而提供了模型构建的综合方法。
从GEMs推断生物体表型行为的主要技术是基于约束的重建和分析(COBRA)¹⁶²,¹⁶³。COBRA采用系统生物学方法,在各种约束下以数学和计算方式对生物体的表型行为进行建模。这些约束可以代表遗传变异、环境条件或不同行为之间的相互作用。在COBRA框架内,通量平衡分析(FBA)是最广为人知的方法。FBA使用数学技术来解决线性问题,并确定在特定约束下重建代谢模型内的最优代谢通量(质量或速率)¹⁶⁴。FBA特别适用于模拟各种生物现象,包括最大生长率、代谢物生产速率以及基因敲除的影响。这些COBRA方法可通过一系列开源软件包获得¹⁶⁵,¹⁶⁶,¹⁶⁷,¹⁶⁸,其中COBRA工具箱最受欢迎。
人类肠道细菌的GEMs通常用于预测微生物之间的代谢相互作用并进行群落代谢建模。CASINO¹⁶⁹、BacArena¹⁷⁰和微生物组建模工具箱¹⁶³等工具是用于这些目的的最受欢迎的工具。肠道中的许多细菌物种在代谢上依赖于其他物种,这种依赖性通常决定了它们在微生物群落中的共现¹⁷¹。对这些代谢相互作用的建模对于理解微生物生态系统(包括人类肠道微生物组)的结构和弹性至关重要。此外,个人肠道微生物组的代谢建模可以揭示特定代谢物在人类疾病中的作用。建模的这一方面尤为重要,因为它可以揭示微生物组、疾病和潜在治疗之间的联系¹⁷²,¹⁷³,¹⁷⁴。此外,模拟宿主、微生物组和饮食之间的相互作用可以为个性化饮食建议或药物剂量提供信息¹⁷⁵。因此,利用MAGs和GEMs的群落范围代谢建模有望为精准微生物组医学¹⁷⁶做出重大贡献。
局限性和挑战
基因组解析宏基因组学在人类微生物组研究中的当前应用存在挑战和局限性。首先,现有数据库中的相当一部分MAG代表不完整的基因组。这些基因组通常包含缺口。参考基因组的质量在后续基于基因组的微生物组分析的成功中起着关键作用。因此,目前正在积极研究开发能够重建无缺口完整MAGs(cMAGs)的方法⁴⁸。传统的短读测序技术在组装不同物种间高度保守的序列区域(如16S rRNA基因)以及捕获通过HGT在物种间转移的基因组区域方面表现不佳。研究人员正在探索将长读测序纳入其中作为解决方案。最初,混合测序将短读测序的核苷酸级精度与长读序列的模板相结合,用于构建cMAGs¹⁷⁷。最近,仅使用高保真长读宏基因组测序也已成功用于构建cMAGs¹⁷⁸。高保真长读宏基因组测序的使用预计将导致人体内共生细菌的完整基因组可用性迅速增加。
其次,大多数MAGs是从来自有限国家的宏基因组样本组装的¹⁷⁹。微生物组数据中(因此在组装的基因组中)的这种不平等表示可能导致各种问题。这些问题包括对不同人群微生物组多样性的理解不完整,以及参考微生物基因组编目的不完整。潜在后果包括在识别与疾病相关的微生物时的不一致,以及在比较微生物组研究中的误解。因此,基于MAG的人类微生物组研究的未来努力应优先考虑代表性不足的人群。
第三,将基因组解析宏基因组学应用于低生物量样本(如组织微生物组)具有挑战性。在这种情况下,只有很小一部分鸟枪测序读数来自微生物基因组。为解决这一挑战,已开发出各种宿主DNA去除方法¹⁸⁰,¹⁸¹,¹⁸²,¹⁸³,并且目前有多种宿主DNA去除试剂盒在商业上可用¹⁸⁴,¹⁸⁵。有效富集细菌DNA显著增加了从低生物量样本重建MAGs的可能性。这将基因组解析宏基因组学方法的适用性扩展到人体内更广泛的微生物群落。
致谢
本研究得到了韩国健康技术R&D项目、韩国健康产业发展研究所(KHIDI)、韩国保健福祉部资助HI19C1344(NY)的支持。P.B.得到了国家糖尿病、消化和肾脏疾病研究所(R01 DK125382)的支持。资助机构在本手稿的设计和准备中没有发挥作用。
作者信息
作者和所属机构
- 生物技术系,生命科学与生物技术学院,延世大学,首尔,03722,大韩民国
Nayeon Kim, Junyeong Ma, Wonjong Kim, Jungyeon Kim & Insuk Lee
- 分子微生物学与免疫学系,布朗大学,普罗维登斯,RI,02912,美国
Peter Belenky
- POSTECH生物技术中心,浦项科技大学(POSTECH),浦项,37673,大韩民国
Insuk Lee
通讯作者
通讯请联系Peter Belenky或Insuk Lee。
伦理声明
竞争利益
作者声明无竞争利益。
附加信息
出版商注 Springer Nature对已发布地图和机构隶属关系中的管辖权声明保持中立。
编辑摘要
宏基因组学:照亮人类肠道微生物群以实现医学突破
人体内栖息着多种对健康至关重要的微生物。本研究旨在克服限制,使用基因组解析宏基因组学,这是一种无需在实验室培养生物体即可从复杂微生物群落中组装完整基因组的方法。研究重点是肠道微生物组,使用先进的计算机方法从DNA测序数据构建宏基因组组装基因组。研究成功通过向现有数据库添加许多新基因组,增加了人类肠道微生物组的遗传多样性。主要发现包括识别新微生物物种并扩展现有物种的基因库,提供对人类肠道内微生物多样性的更深入理解。研究人员得出结论,基因组解析宏基因组学是微生物组研究的重大进步,为理解微生物群落及其功能提供了重要见解。本摘要最初使用人工智能起草,然后由作者进行修改和事实核查。
【全文结束】


