摘要
背景
人类微生物组与宿主健康密切相关,被认为在多种人类疾病的发病机制及治疗效果方面发挥直接作用。目前,借助一套已建立且持续优化的生物信息学与统计资源,科学家能够对微生物组组成及其与宿主的相互作用进行精确表征,从而为微生物组样本组成及其与样本和宿主信息的关联等基本问题提供可重复的科学答案。大量证据表明,在非疾病状态下,微生物组组成受多种因素影响,包括出生时获得的微生物、生活方式、饮食模式、社交互动、抗生素使用或益生菌摄入等。在疾病状态下,微生物组可能改变其组成,并在某些情况下呈现特定的生物标志物,例如结直肠癌。临床肿瘤学研究显示,某些微生物组成分与免疫治疗反应改善相关,这表明特定微生物物种可能具有潜在益处,支持将微生物组作为相关场景中的辅助治疗工具。
目标
本综述总结了微生物组表征的计算方法,突出微生物组-疾病关联的关键发现,并展望了未来需要解决的研究方向和开放性问题。
来源
我们基于其在该领域的影响力和与本手稿主题的相关性,选取了发表在同行评审期刊上的科学研究和综述。文献选择是通过检索主要科学数据库(如PubMed)中的科学出版物,并结合作者对文献的专业认知进行的。
内容
本文回顾了在健康和疾病状态下表征和建模微生物组结构的计算方法,并讨论了多队列数据分析、整合和验证方法。
意义
改进的微生物组表征通过提供预防或治疗信息,利用精细的微生物组特征和调控策略,支持精准医学发展。
引言
人体在出生期间和出生后不久被微生物定植,并与这些寄宿微生物建立复杂相互作用,这些微生物可能通过不同的生态动态发挥作用,成为共生体、机会主义者或病原体。尽管这些微生物的存在早已被认识,但将它们作为一个整体社区来研究其对人类健康的影响相对较新。虽然微生物组与各种人类健康状况、生活方式之间的关联已被广泛探索,但对其潜在机制的清晰理解仍然缺乏。
"精准医学"概念已被引入以描述靶向治疗。广义上讲,这指的是根据特定条件量身定制的干预措施,考虑个体特征以改善健康结果,最大化治疗益处,并最小化副作用。这种方法在解决包括精准肿瘤学在内的多种医疗状况方面显示出潜力。在本工作中,我们提供关于微生物组与疾病关联的最新证据概述,讨论当前挑战,并概述支持精准医学的高级计算分析研究方向。我们并不全面回顾所有现有方法(这些已在先前工作中详尽描述),而是提供这些方法的概述,以说明它们如何揭示微生物组与宿主健康的关联,以及它们在现实生活场景(如癌症)中的应用。
通过计算宏基因组学研究人类微生物组
微生物组是一个复杂的微生物群落,包括细菌、古菌、病毒和微真核生物,它们定植于人体内多样且特定的部位。它与宿主建立复杂相互作用,从训练新生儿的免疫系统到消化复杂纤维,以及促进炎症。此外,已在母婴对之间和生活在同一家庭的个体之间观察到微生物的传播,其中社交互动是这种效应的主要驱动因素。
微生物组的表征不仅涉及在特定身体部位对构成群落的微生物进行分析,还包括群落中编码的基因、表达的基因、产生的蛋白质和酶,以及群落内部或与宿主组织界面处存在的代谢物。表征这种复杂环境需要一种多组学方法,利用不同技术测序遗传物质(宏基因组)、转录本(宏转录组)、蛋白质和酶(宏蛋白质组)以及代谢物(代谢组)。大多数微生物组研究集中在分析群落的宏基因组方面,而其他组学则以较低规模用于解决更具体问题(例如,在炎症性肠病或结直肠癌等特定条件下定义微生物生物标志物)。
迄今为止,表征样本宏基因组的最全面方法是鸟枪法宏基因组学,它可以对样本中存在的整个DNA进行非靶向测序。鉴于这种方法的多步骤性质,需要考虑关键步骤,以及减轻批次效应和提高微生物组研究可重复性的策略(见框表)。在质量检查和宿主DNA去除后,事后生物信息学分析能够对群落进行定量的分类学、功能和菌株水平分析。这些方法不断改进,有新的物种定义允许分析那些尚未培养的微生物,以及改进功能潜力和菌株水平多样性的表征。
大量研究表明,更高分辨率的微生物组组成分析至关重要。例如,特定基因在菌株水平上的存在或缺失可能导致与宿主的不同相互作用。此外,关于样本和宿主的精确高质量信息(通常称为元数据),包括性别、年龄、身体质量指数(BMI)、临床健康指标测量值和饮食信息等个人资料,是发现和研究微生物组-宿主生物标志物的基础。最近一个更精细的疾病关联示例显示,肠道中的共生物种在菌株水平上存在差异,与结直肠癌的存在与否、疾病阶段和原发肿瘤位置相关。
大规模人群微生物组队列研究人类疾病
为准确表示微生物组的个体间变异,拥有大规模数据至关重要。同时,随着人口规模队列的扩大,收集关于宿主和样本的高质量信息也至关重要,以获取强有力的关联。这些元数据信息使研究人员能够在考虑潜在混杂因素的同时分析其感兴趣的结果,并根据人群中的某些特征对个体进行分层。此外,人口规模研究为研究微生物组特征与人类遗传学提供了必要的统计能力。
尽管需要大规模队列,但应用适当的统计工具进行数据分析也至关重要,这些工具可以调整潜在偏差和混杂因素。跨队列分析可以识别队列之间的共同特征,但纠正批次效应的能力有限。另一种增加样本量并评估微生物生物标志物可推广性的高级统计方法是元分析,它整合了来自多个队列的数据,并允许研究人员考虑队列特定特征,如性别、年龄、国家、饮食和其他因素。元分析已被用于表征微生物组与炎症性肠病、2型糖尿病和癌症的关联,在这些领域中,这些方法已被用于揭示跨队列一致的信号。
揭示微生物组关联的高级统计方法
确定微生物组与样本和宿主元数据的关联通常涉及一系列统计方法,从经典单变量和多变量分析到机器学习分类和回归算法。多变量统计方法通常优于单变量方法,因为它们可以减轻在先前步骤中未被消除或考虑的混杂因素的影响。这些方法包括经典统计方法,如Wilcoxon检验或线性模型、为RNA-seq分析开发的方法(如limma)以及专门为微生物组数据开发的方法(如ANCOM和MaAsLin)。这些方法已得到广泛基准测试,显示了优缺点,并强调在某些情况下,假发现率高于预期,尤其是在样本量小的研究中。尽管每种方法都有内在限制,但通过多队列验证可以支持所发现关联的稳健性。
机器学习算法最近被用于评估社区范围内微生物组与目标变量的关联,无论是分类的(分类)还是连续的(回归)。不同的机器学习算法已在单队列和多队列场景中进行了基准测试和测试。一个应用是确定微生物组与特定宿主或样本信息关联的强度,例如,利用预测的准确性或真实值与预测值之间的相关性作为效应大小的度量。通常,微生物组数据的机器学习应用使用分类物种相对丰度或基因或代谢途径丰度值作为输入特征,训练模型以预测目标结果,例如疾病或非疾病。一些机器学习算法,如随机森林,可以提供特征重要性值(例如,物种),可用于优先考虑与目标变量关联更强的候选者的下游微生物学研究。除了基于关联的任务外,机器学习还可用于确定微生物组在某些疾病(如癌症)中作为诊断或预后工具的潜力。更复杂的机器学习方法(如深度学习)的应用目前主要受限于缺乏大规模队列。此外,解决特定问题(如微生物组是否能预测疾病)需要整合多项研究的方法,包括机器学习的留一数据集验证和生物标志物发现的元分析。
验证的建模方法
解开微生物组的社区级代谢能力,特别是关于它们对宿主的影响和相互作用,是具有挑战性的。在过去的十年中,已经开发了用于微生物组建模的计算和体外方法。计算模型可分为四个主要领域:i) 网络分析方法;ii) 动态模型;iii) 通过基于约束的模型进行代谢网络推断;以及iv) 用于模拟社区结构动态的基于代理的模型。鉴于微生物组内以及微生物与宿主之间的复杂相互作用,全面理解通常需要整合多种方法,称为混合方法。
建立具有功能特性的微生物代理的基础是在物种和菌株水平上对微生物功能潜力的精细表征。基因组规模的重建和表征已被用于创建深度注释的数据库,这些数据库已被用于表征各种场景中微生物组的代谢潜力,如炎症性肠病和结直肠癌。此外,微生物组建模可以通过体外和体内实验来补充,以验证关联并阐明机制。这些组合策略可以进一步深入了解计算提出的关联背后的机制,并帮助定义对其建立和改变有贡献的外部因素。
疾病的微生物组生物标志物
虽然患病个体的识别通常基于特定临床标记值,但大多数研究将"健康"个体定义为相对于特定感兴趣条件(例如,非肥胖与肥胖个体)。然而,一般而言,预先定义"健康"个体并不简单。尽管如此,某些微生物特征如普氏粪杆菌和双歧杆菌等通常在这些"健康"个体中发现,但尚不清楚这些是健康微生物组的真实生物标志物还是仅仅是普遍存在的共生体。此外,有益或"健康"的微生物有时被定义为用作益生菌的微生物(如乳杆菌属)以改善健康;然而,这些通常在不摄入益生菌的个体肠道中找不到,并且可能只是暂时性的,无法定植胃肠道。
另一方面,某些人类疾病的特点是微生物组发生显著改变,这是由于存在通常不是肠道共生体的微生物物种,或者与"健康"对照相比丰度增加。例子包括2型糖尿病、炎症性肠病和癌症,先前的研究已经定义了这些疾病的微生物特征。
各种研究强调了微生物物种在癌症启动和进展中的潜在作用。肠道微生物组对某些癌症类型的预后潜力已被提出,例如在非小细胞肺癌和黑色素瘤的免疫治疗中,以及其他治疗(包括化疗)中的程度较低。尽管许多癌症类型已与微生物组相关联,包括胰腺导管腺癌、黑色素瘤、非小细胞肺癌、淋巴瘤以及泌尿生殖道癌症,但在本综述中,我们考虑与结直肠癌的关联,这在历史上是最广泛研究的癌症类型。
结直肠癌患者肠道中微生物的改变已被广泛报道。结直肠癌是最早确定强健且可重复的微生物生物标志物的癌症类型之一,研究人员独立于患者的地理位置、研究该疾病的科研团队以及所采用的分析方法,对这些生物标志物进行了细化和验证。分析方法的改进为进一步了解微生物组与结直肠癌的关联提供了更多见解,包括物种和菌株水平的分类组成以及功能方面。特别是,已经表明原发肿瘤本身与一个专门的微环境相关,在该微环境中结直肠癌典型的细菌被富集,这些细菌在相邻的正常组织中并不常见,或者在原发肿瘤切除后减少。微生物物种已被涉及疾病的发展(具核梭杆菌fap2、脆弱拟杆菌fragilysin和大肠杆菌pks+ colibactin),已知的机制需要粘附到肠细胞系以诱导肿瘤发生。鉴于其在预测结直肠癌病例方面的准确性,特别是在与愈创木脂粪便血检相比时,微生物组也被提议作为替代的非侵入性筛查工具。未来的研究应在独立队列中验证其潜力,并对现有结直肠癌筛查工具进行更广泛的比较。这些还需要在匹配现实场景的更大环境中进行外部验证,以设计特定的临床试验来确定因果关系。
鉴于微生物与免疫治疗反应关联的证据,以及最近与其他肿瘤学治疗的关联,已提出粪便微生物组移植可能是在肿瘤学中改善各种癌症类型(如黑色素瘤)对免疫检查点抑制剂反应的有效支持治疗。粪便微生物组移植已建立用于治疗复发性艰难梭菌感染,是第一个基于微生物组的FDA批准疗法。在将粪便微生物组移植引入肿瘤学患者治疗作为辅助治疗之前的第一步是在临床试验中确定其安全性。在黑色素瘤的情况下,粪便微生物组移植已经过测试,与单独使用免疫治疗的其他证据相比,显示出更高的客观缓解率(65%),免疫相关的严重不良事件水平相似。这是微生物组调控如何支持免疫治疗的一个明确例子。然而,仍有几个开放性问题需要阐明。例如,目前尚不清楚导致成功定植和改善治疗反应的主要驱动因素是什么。此外,供体与受体之间没有直接匹配,因为潜在的微生物学关系仍有待解释。有一些已建立的纳入/排除标准来定义可用的供体池,但无法保证对受体的长期安全性。
结论
微生物组已与人类健康和疾病相关联,鸟枪法宏基因组学与高级计算分析相结合目前代表了生成与宿主健康相关的高分辨率微生物组谱的最先进方法。进一步完善分析和建模方法,以及提供更多数据的更大规模研究,是推进我们对这些关联的理解、在微生物组的生态系统性质背景下对它们进行情境化以及验证微生物组作为个性化干预和临床应用工具的两个主要要求。研究社区内公开共享微生物组数据的能力,结合未来的大规模研究,将使更复杂模型的应用成为可能,这些模型可以提供关于微生物组-宿主关联的新见解。这对于评估微生物组特征的可重复性、改进预测以及为未来微生物组研究设计提供信息至关重要。
贡献声明
G.P.和F.A.构思、起草并审阅了手稿。
资金支持
这项工作得到了意大利大学和研究部作为FIS 2计划的一部分的支持 - 项目代码FIS-2023-03427 - CUP E53C25000400001,资助给F.A。
竞争利益
作者声明无竞争利益。
【全文结束】

