数据转换与模型选择对微生物组分类特征重要性的影响Effects of data transformation and model selection on feature importance in microbiome classification data | Microbiome | Full Text

环球医讯 / AI与医疗健康来源:microbiomejournal.biomedcentral.com爱沙尼亚 - 英语2025-08-26 02:38:05 - 阅读时长5分钟 - 2326字
通过对8500余个宏基因组样本的系统分析,研究发现微生物组数据转换和模型选择对分类准确性影响有限,但显著改变特征重要性分布。存在-缺失转换可实现与丰度转换相当的分类性能,但选择的特征重叠度仅50%,提示需重新评估机器学习生物标志物发现方法。该发现为微生物组机器学习应用提供了关键指导,指明了特征识别验证和稳定性研究方向。
微生物组数据数据转换机器学习健康与疾病分类特征选择生物标志物存在-缺失转换丰度转换益生菌疾病特异性标志物
数据转换与模型选择对微生物组分类特征重要性的影响

摘要

背景

微生物组数据的准确宿主表型分类对推进微生物组疗法至关重要,机器学习提供了有效解决方案。然而,肠道微生物组的复杂性、数据稀疏性、组成性特征及人群特异性构成重大挑战。虽然微生物组数据转换能缓解部分问题,但其在机器学习任务中的应用尚未充分探索。

结果

对24个霰弹枪宏基因组数据集超8500个样本的分析表明,利用微生物组数据进行健康与疾病分类时,算法或转换方法的选择依赖性极低。存在-缺失转换的性能与丰度转换相当,仅需少量预测因子即可实现准确分类。尽管不同转换方法的分类性能相似,但最重要的特征差异显著,突显了需重新评估机器学习生物标志物检测方法。

结论

微生物组数据转换显著影响特征选择,但对分类准确性影响有限。研究显示分类性能在不同转换方法间具有鲁棒性,但特征选择的差异提示需谨慎使用机器学习进行生物标志物识别。该研究为微生物组机器学习应用提供了关键见解,并指明了未来研究方向。

引言

人类微生物组蕴含大量可用于改善临床实践和公共卫生的信息,但其数百种物种组成的复杂生态系统及成员间复杂的相互作用使解析极具挑战。机器学习(ML)方法因其能处理高维度和多样化数据,已成为微生物组研究的关键工具。ML在微生物组领域最广泛的应用是基于分类或功能谱预测结果,但也用于分类分配、功能谱分析等。例如,ML已被成功用于构建结直肠癌、胰腺癌的分类模型,以及预测肝病、2型糖尿病和全因死亡率等未来疾病结果。

目前微生物组数据分析缺乏标准方法,最佳方法尚未明确。例如,差异丰度分析的结果因分析方法不同而差异显著,这种矛盾结果可归因于微生物组数据的组成性、高维度和高稀疏性。为解决这些限制,总和标度(TSS)、反正弦平方根(aSIN)和对数比转换(如CLR、ILR、ALR)等数据转换方法被广泛应用。然而,数据转换对机器学习预测和分类任务的影响仍不清楚。

Giliberti等人最近比较了基于微生物存在-缺失和TSS缩放模型的性能,发现存在-缺失特征的预测性能相当。但有迹象表明,基于对数比的转换(如CLR)在预测任务中可能优于TSS。该研究系统评估了不同数据转换在霰弹枪宏基因组数据二元分类中的影响,使用8种转换方法结合3种机器学习算法(随机森林、极端梯度提升、弹性网络),在24个宏基因组数据集中进行评估。此外,研究还探讨了数据转换对模型可推广性和特征选择的影响。

结果

研究设计

研究使用R包curatedMetagenomicData(版本3.6.2)中的24个霰弹枪宏基因组数据集(含超8500个样本)和爱沙尼亚微生物组队列(EstMB,n=2509)数据。数据经过8种转换方法(存在-缺失PA、总和标度TSS、logTSS、aSIN、CLR、rCLR、ILR、ALR)处理后,使用随机森林(RF)、XGBoost(XGB)和弹性网络(ENET)进行二元分类(健康vs疾病)。

分类性能依赖数据转换的分析

主要发现包括:

  1. ENET使用TSS时性能显著低于RF和XGB(FDR≤0.05),但PA表现相当或更优
  2. RF在使用PA时分类性能优于ILR、CLR、rCLR和ALR
  3. rCLR和ILR在多数情况下表现较差,尤其ENET中显著下降
  4. 稀释处理未提升性能(FDR=0.0012-0.0155),表明对宏基因组数据分类无需稀释

不同分析场景的数据转换效应

  1. 在样本量和特征维度变化分析中,较大样本量和包含低流行分类单元可提升性能
  2. 留一研究交叉验证显示,存在-缺失转换在结直肠癌和肥胖分类中表现良好
  3. 特征重要性分析揭示关键发现:
  • 组成性转换(ALR、CLR、rCLR)选择特征数量更多,但仅约25个特征具有显著重要性
  • 使用PA数据,10个抗生素、25个抑郁症、75个肥胖预测因子即可实现全谱性能
  • 特征过拟合可能由微生物组数据的组成性和高维性导致

特征选择差异

不同转换方法选择的特征重叠度差异显著:

  1. ENET中PA、CLR、ALR、logTSS重叠度最高(约75%),但与TSS、rCLR重叠度低
  2. RF中TSS、aSIN、logTSS特征重叠度近100%
  3. XGB特征选择与RF高度一致
  4. PA与其他方法重叠度仅约50%,提示可能发现新生物标志物

特征重要性稳定性分析

通过SHAP值和主成分分析揭示:

  1. 目标特异性信号明显,如结直肠癌和土壤传播蠕虫特征沿PC2轴分离
  2. RF的特征重要性谱变异最小,ENET和XGB跨研究相似性更高
  3. 相关性分析显示SHAP值与分类单元流行度正相关,但PA和CLR相关性较低

微生物标志物特征分析

  1. 丰度转换更易识别普氏菌(P. copri)、脆弱拟杆菌(B. vulgatus)等高丰度共生菌
  2. PA转换更易识别嗜黏蛋白阿克曼菌(A. muciniphila)等益生菌及机会致病菌如脱硫弧菌(D. piger)
  3. 丰度依赖性可能干扰疾病特异性标志物识别

讨论

本研究系统评估了数据转换对微生物组机器学习性能的影响,主要结论:

  1. 存在-缺失转换可作为丰度转换的有效替代,避免伪计数和尺度转换需求
  2. 特征选择高度依赖转换方法,不同转换可能获得相似性能但特征差异显著
  3. 推荐使用统计等效特征集方法识别具有相同预测能力的变量集
  4. 未来需更多研究合成微生物群落,验证数据转换对分类和特征选择的影响

研究局限包括:

  1. 未采用基于系统发育的高级转换方法(如PhyILR)
  2. 侧重分类任务,可能限制对其他分析的适用性
  3. 未完全控制潜在混杂变量

未来方向包括:

  1. 评估存在-缺失数据结合关键细菌丰度变化是否提升性能
  2. 探索技术因素(如测序深度)对特征选择的影响
  3. 验证不同地理位置SHAP值的一致性
  4. 拓展研究到回归模型和聚类等任务

【全文结束】