婴儿肠道微生物群落早期演替在全球范围内遵循共同模式。本文的研究结果发表于《自然通讯》,揭示了婴儿肠道微生物群落演替的普遍模式,这有助于理解儿童健康和发展。
【摘要】描述婴儿肠道微生物群落演替的动力学对于理解儿童健康和发展至关重要,但目前尚不存在规范模型。本研究通过高时间分辨率(±3个月)的第一年半内婴儿肠道微生物分类相对丰度估计婴儿年龄。利用来自12个国家1827名婴儿的3154个样本,我们训练了一个随机森林模型,实现了2.56个月的均方根误差。我们确定了关键的分类预测因子,包括双歧杆菌属(Bifidobacterium spp.)的减少和Faecalibacterium prausnitzii及Lachnospiraceae的增加。微生物演替模式在来自不同人群的婴儿中得到保守,表明存在普遍的发展轨迹。功能分析证实了关键微生物基因在喂养过渡和饮食暴露方面的趋势。该模型提供了一个“微生物年龄”的规范基准,可用于评估早期肠道成熟情况,并可与其他儿童发展指标一起使用。
【引言】人类肠道微生物组是一个复杂的生态系统,由多种微生物组成,它们相互作用并与宿主形成紧密的伙伴关系。这些微生物对消化、代谢和免疫功能等生理过程至关重要。婴儿的第一次重大定植事件发生在出生时,微生物演替在此后的几年内继续进行。这一演替的时间依赖性特征是由自然史和环境暴露(如母乳喂养行为和固体食物的引入)共同塑造的。早期生命的定植事件发生改变可能对儿童健康产生重大影响,包括炎症性疾病(如过敏和哮喘)、代谢疾病(如糖尿病)、神经认知结果和其他慢性疾病。特定的微生物类群倾向于在早期婴儿的不同阶段增殖。初期胃肠道定植者包括能够代谢人乳寡糖或掠夺简单分子的微生物。后期引入固体、复杂和多样化的饮食为更挑剔的定植者提供了机会,形成了更多样化的群落。从出生到晚年至死亡的不同生命阶段,反复出现的定植和微生物演替模式显示出一致的微生物群落发育与时间的关系。
这些基于时间的方法已被用于描述未发育成熟的肠道微生物群落的表型影响。研究表明,当肠道微生物群落不符合预期的发育阶段时,可能会与生长和免疫功能有显著的健康关联。这种未发育成熟可能会导致和加剧不良健康和营养不良的循环,可能影响儿童的生理和行为的各个方面。为了衡量这种时间上的不匹配,有必要建立一个早期生命肠道微生物群落发育的参考轨迹以及测量个体偏离该轨迹的方法。一种可能的解决方案是开发基于大型和多样化队列的肠道微生物群落测序的年龄估算模型。这些模型可以训练以准确生成宿主年龄的估计值,然后将其与样本采集时的年龄进行比较。采用这种方法,已在多个领域报告了模型输出与儿童健康结果之间的联系。
除了用于特定健康结果的广泛应用外,此类模型还可以帮助阐明健康的、规范的肠道发育。然而,现有的年龄模型在应用于该背景下面临若干挑战,特别是在幼儿期。大多数现有模型利用16S rRNA基因扩增子测序数据来估计肠道微生物群落的成熟度,但这种方法提供的分类解析度有限,因为密切相关的分类单元通常被归为同一类。大多数定量年龄模型侧重于老龄化,涵盖大范围的年龄区间,要么排除幼儿期,要么缺乏必要的分辨率以在第一年内产生有意义的预测。许多考虑年龄与早期微生物群落发育关系的模型并不产生数值年龄估计,而是依赖于无监督学习和定性预测或关联。模型往往是在单个队列上训练并在外部人群中验证,而跨地理区域的分析一直缺乏。近年来,来自适当规模和多样化人群的宏基因组测序数据已经可用,但这些数据集尚未纳入多站点年龄模型。因此,有必要开发一个全面的、全球规模的针对幼儿期的定量年龄模型。
在这项研究中,我们试图描述不同地理区域婴儿早期生活的普遍微生物定植模式。为此,我们基于肠道微生物分类相对丰度开发了一个年龄预测模型,在第一年半内具有高时间分辨率。使用来自12个国家1827名婴儿的3154个宏基因组测序样本,该模型提供了一种强大的工具,用于理解微生物演替模式,并作为未来研究肠道微生物群落成熟与儿童发育关系的基础。
【结果】全球宏基因组数据使大规模元分析成为可能。我们使用一个合并的数据集调查了婴儿肠道微生物群落的发育轨迹,该数据集结合了来自12项研究的3154个粪便样本,这些样本通过宏基因组测序获得。宏基因组涵盖了四大洲的12个国家(表1,图1a)。所有符合条件的样本(见方法)在2至18个月之间收集(平均=7.90个月,标准差=3.99个月)都被纳入模型,导致较年轻的样本(2至4个月)略有过代表(图1b,补充图1)。通过广泛的全球来源构建分析数据集使我们能够纳入大量低收入和中等收入国家(LMICs)的数据,约占总样本池的46%。1kD Wellcome LEAP项目贡献了总共1817个以前未用于年龄相关研究的样本。其中427个样本由南非Khula研究收集,以前未发表过。这些1kD-LEAP样本略年轻(平均=6.86个月,标准差=3.55个月),其中大多数(80.57%)来自低收入和中等收入国家。
表1 数据池分析的数据来源
图1:通过汇集大量全球取样的、统一处理的早期生命宏基因组数据,形成连续的多样性景观。
a 样本来源的地理分布(总数 n=3154),按主要数据源着色。b 按出生以来的月份分箱的样本采集年龄分布,在年龄模型的动态范围内,按主要数据源着色。甜甜圈图详细说明了主要数据源的总样本贡献。c 方法概述,从数据采集(通过采样、公共存储库或数据协作获取)、相同的处理管道到下游统计分析。d 和 e 使用NMDS排序的Bray-Curtis β多样性,按分类数据源(d)和按连续年龄(e)着色。轴百分比表示由主坐标解释的方差。通过单因素PERMANOVA测试计算解释的方差和p值。源数据作为源数据文件提供。
图2:来自宏基因组的肠道微生物分类丰度在婴儿早期准确预测宿主年龄。
a 验证集预测年龄与真实年龄对比,按主要数据源着色。b 训练的RF模型中顶级预测特征的方向重要性,按平均纯度下降(MDI)乘以预测变量与结果的相关符号测量。x轴的绝对值表示分配给特征的总适应度加权重要性的比例。c Shannon指数与宿主年龄的关系,按主要数据源着色。d 至 g 重要物种_D. formicigenerans_ (d)、E. coli (e)、F. prausnitzii (f)和 B. breve (g)的相对丰度,按主要数据源着色,并按宿主年龄的月平均流行率绘制。源数据作为源数据文件提供。
【讨论】在这项研究中,我们展示了早期生命肠道微生物群落的关键少数类群演替模式在各种地理和社会经济背景下遵循共同模式。这些模式足够强且一致,可以通过我们的微生物年龄模型进行学习,使其能够超越单个队列边界进行泛化。我们能够构建如此稳健模型的主要原因之一是我们的大规模汇集策略,使我们能够在例如饮食习惯和饮食成分等方面进行多样化背景采样,这是学习模式的一个强烈反映。因此,我们捕捉到了广泛且具代表性的微生物谱型,增强了我们模型对区域变异的鲁棒性,这是微生物组基模型在各种表型中实现泛化的一个关键障碍。
大多数现有研究使用16S rRNA基因扩增子测序的分类鉴定来表征微生物组年龄。然而,越来越多的研究现在采用宏基因组测序,认识到这种方法对理解微生物群落带来的更高分辨率。相应地,我们使用宏基因组测序开发了我们的模型,不仅解决了扩增子测序的已知局限性,而且与该领域的新兴标准保持一致。利用宏基因组方法能够对复杂样本中的所有基因进行采样的能力,我们最大化了分类解析度和识别的类群广度。除了类群,这种综合方法还使我们能够探索与微生物基因相关的功能通路——提供了对微生物群落功能谱系随年龄演变的更深入视角。
拟合随机森林模型的重要性分析显示,主要的年龄预测因子是受关键事件(如饮食变化)影响的微生物群落自然演替所涉及的类群。例如,F. prausnitzii 和 A. hadrus 是前两年生命中重要的年龄预测因子。这些类群是丁酸生产者,通常出现在断奶之后,标志着向以厚壁菌门为主的肠道转变,其特点是短链脂肪酸(SCFA)产量增加。同样的现象解释了已知的人乳寡糖代谢者(如 Bifidobacterium 属)的重要性,这些类群是婴儿早期阶段的特征,尤其是在母乳喂养普遍的地区。除了这些类群,Shannon指数(α多样性)也作为一个重要的预测因子出现。这是预期的,因为在婴儿早期,肠道微生物多样性会随着年龄的增长而增加。许多顶级预测类群在所有测试的地理位置(美国、欧洲、南非)的前13个月内表现出相似的演替模式,尽管存在显著的社会经济差异。这表明,无论元数据如何变化,微生物演替的模式足以确定年龄,具有强健、一致且可学习的特点。
我们的研究部分证实了先前研究的结果,即早期生命中酶委员会编号(EC)的时间转换。这表明,年龄决定类群及其功能在不同的微生物群落中是一致的,即使在生活方式和种族背景多样化的多个队列中也是如此。变化最大的EC主要参与中心碳水化合物代谢,其中许多与双歧杆菌有关。例如,B. breve 利用核糖激酶(2.7.1.15)在早期肠道中收获核糖作为碳源,几种 Bifidobacterium 属具有转酮醇酶(2.2.1.2)。这些酶的存在支持了与复杂碳水化合物摄入相关的饮食转换是年龄决定模式的主要驱动因素的观点。在这种情况下,一个特别有趣的酶是吡哆醛激酶(2.7.1.35),它在双歧杆菌典型的GABA合成途径中起作用。值得注意的是,婴儿粪便中的GABA浓度与早期行为特征有关。我们的发现表明,GABA与 Bifidobacterium 属之间的关联具有特定的功能联系,这也与年龄相关,强调了一条可以作为研究第一年生活行为结果的有力候选途径。
尽管我们的模型报告了强有力的基准,但仍有一些限制需要未来的研究解决。例如,在模型开发中我们决定排除所有附加的参与者和生物样本元数据,仅使用参与者的年龄和微生物数据。这个决定是因为元数据收集和注释在各个研究中缺乏一致性。然而,先前的研究表明,如喂养方式、社会经济地位、分娩方式和胎龄等元数据可以增强基于微生物的模型的预测能力。值得注意的是,在我们的情况下,包括这些协变量会导致由于缺少元数据而大量丢失样本,这将损害模型的泛化能力并使比较基准变得不可行。另一个改进领域是将季节作为外部效应纳入模型,以模拟时间序列演替模式,考虑到不同半球的影响。此外,尽管有许多关于早期生命肠道微生物的参考基因组,但对其功能和生化特性仍偏向于少数已知的微生物。尽管我们在时间间隔较大的情况下仍然能够证实Vatanen等人(2018)的研究结果,但这可能是由于对注释功能空间的有限表征。
研究动态过程相关的发育变化在没有基准或标准的情况下提供预期值范围是具有挑战性的。鉴于微生物组成的高度维度和高度动态性质,简单的标准(如用于人体测量的年龄标准化Z评分)是不可行的,因此在没有商定的规范发育轨迹的情况下,研究微生物与儿童发育的关联是具有挑战性的。直接测试微生物组发育与其他规范的儿童发育指标之间的关系超出了本工作的范围,这是一个源于我们所使用数据性质的局限性。我们的研究汇集了来自观察性和干预性研究的异构注释数据,其中许多缺乏详细的元数据,因此无法进行此类分析。尽管如此,本研究提供的微生物年龄模型,基于来自全球各地人类儿童的多样化人口,为未来探索这些关系的研究提供了基础资源。例如,Subramanian等人之前的靶向工作展示了微生物年龄模型在理解营养不良方面的实用性,而Shenhav等人则将微生物成熟度的变化与哮喘的发生联系起来。这些例子突显了微生物年龄模型在推进公共卫生研究和揭示不同微生物对全球健康影响的潜力。未来的研究应结合协调的元数据和有针对性的亚队列分析,以充分实现微生物年龄模型在这些背景下的潜力。
(全文结束)


