多模态人工智能/机器学习用于发现心血管疾病患者多组学谱型中的新型生物标志物和预测疾病Multimodal AI/ML for discovering novel biomarkers and predicting disease using multi-omics profiles of patients with cardiovascular diseases

环球医讯 / AI与医疗健康来源:www.nature.com美国 - 英语2024-11-03 18:00:00 - 阅读时长6分钟 - 2512字
本文介绍了一种基于多模态人工智能和机器学习的方法,通过整合基因组学和转录组学数据,发现心血管疾病的新生物标志物并预测疾病。
多模态人工智能机器学习心血管疾病多组学技术生物标志物个性化风险转录组表达单核苷酸多态性
多模态人工智能/机器学习用于发现心血管疾病患者多组学谱型中的新型生物标志物和预测疾病

心血管疾病(CVD)是复杂的、多因素的病症,需要个性化的评估和治疗。多组学技术的进步,特别是RNA测序和全基因组测序,为转化研究者提供了人类基因组的全面视图。通过综合方法高效合成和分析这些数据,可以揭示与新兴表型相关的遗传变异及其表达模式,从而发现新的生物标志物,并根据个性化风险因素对患者群体进行细分。在这项研究中,我们提出了一种基于传统生物信息学、经典统计学和多模态机器学习技术相结合的前沿方法。我们的方法有可能揭示CVD背后的复杂机制,实现患者特异性风险和反应谱型的构建。我们从CVD患者和健康对照组中获取了转录组表达数据和单核苷酸多态性(SNPs)。通过将这些多组学数据集与临床人口统计信息整合,我们生成了患者特异性谱型。利用稳健的特征选择方法,我们确定了一组27个转录组特征和SNPs,这些特征是CVD的有效预测因子。差异表达分析结合最小冗余最大相关性特征选择,突出了解释疾病表型的生物标志物。这种方法在机器学习中优先考虑生物学相关性和效率。我们使用组合注释依赖耗尽评分和等位基因频率来识别CVD患者中具有致病特征的变异。训练这些特征的分类模型展示了CVD的高准确性预测。表现最佳的模型是一个通过贝叶斯超参数调优优化的XGBoost分类器,该模型能够在测试数据集中正确分类所有患者。使用SHapley Additive exPlanations,我们为患者创建了风险评估,进一步在临床环境中解释这些预测。在整个队列中,RPL36AP37HBA1 被评为预测CVD最重要的生物标志物。全面的文献回顾表明,我们识别的诊断生物标志物中有相当一部分之前已与CVD相关联。本研究中提出的框架是无偏见且可推广到其他疾病和障碍的。

引言

心血管疾病(CVD)被公认为是美国男性和女性的主要死因。鉴于其复杂性、风险因素、内在遗传构成和轨迹,CVD的有效治疗需要个性化管理。基因组学和生物信息学的进步显著增强了我们对CVD复杂起源的理解。利用转录组表达和变异谱型来了解疾病影响,有望彻底改变各种CVD(包括但不限于心力衰竭(HF)和心房颤动(AF))的诊断能力、治疗策略和预后评估。这些进展源于下一代测序(NGS)技术,这些技术促进了新遗传联系的识别和患者之间遗传多样性的探索。通过RNA测序(RNA-seq)数据进行基因表达分析,有助于发现与疾病相关的生物标志物,并根据风险谱型对患者群体进行分类。分析RNA-seq数据的差异表达可以探索全基因组范围内的生物学差异,从而丰富功能通路和基因本体。RNA-seq数据集为基因表达、RNA处理和疾病状态下的分子通路提供了宝贵的生物学见解。虽然基因表达分析可以提高诊断能力和精确的治疗计划,但多项研究表明,RNA-seq在非编码区域的覆盖有限,且转录组学无法检测基因组变异。多因素疾病的起始受环境和遗传因素的相互作用影响,影响各种生物学过程,如基因调控。之前的研究利用全基因组和外显子测序(WGS/WES)证明了其在准确揭示CVD等非编码变异对CVD和其他复杂疾病的影响方面的有效性,以及在捕获所有遗传变异方面的能力,从而提供个体全基因组的全面信息。尽管测序技术有助于识别与疾病相关的遗传变异,但准确地将特定基因组变异与疾病表型联系起来仍然具有挑战性。解码基因的致病性和生物学功能可能需要超出单一类型数据所能提供的额外信息。数据整合对于管理日益增长的数据量和获得广泛的基因组数据跨学科见解至关重要。此外,由于基因组、转录组和临床数据的异质性,缺乏标准化仍然是数据整合的一个限制。这些挑战正在通过将精准医学和人工智能(AI)/机器学习(ML)方法的整合来解决,其中可以选择和分类表型、临床、转录组和基因组数据,以促进高风险患者的识别。利用前沿的AI/ML技术可以辅助分析和解释基因表达和变异数据,提供更准确的诊断,并提高我们对包括但不限于CVD、红斑狼疮和结肠癌在内的复杂疾病机制的理解。此前,我们进行了传统的生物信息学分析,包括对主要患有HF和其他CVD的患者的RNA-seq数据进行深入的基因表达和富集分析。我们识别了与CVD和其他富集通路密切相关且被广泛记录的差异表达基因(DEGs)。然而,我们未能使用RNA-seq数据检测到任何CVD驱动因子。为解决这一局限性,我们采用了一种整合多组学的方法,结合基因表达、致病性遗传变异和CVD人群中的相关表型。在这项研究中,我们将之前报告的DEGs的具体突变结合起来,以便更好地理解CVD的进展。扩展我们的研究并超越传统的生物信息学技术,我们在RNA-seq驱动的基因表达数据上实施了AI/ML技术,以研究与HF、AF和其他CVD相关的生物标志物。我们的AI/ML分析支持了我们最初的基因表达研究,因为我们能够识别对CVD诊断有高影响的共同基因。此外,这种AI/ML框架帮助建立了_Hygieia_,这是一种便携式管道,用于整合基因组和医疗保健数据,探索与特定疾病相关的基因并预测疾病。虽然我们使用这种方法能够以高精度预测CVD,但我们仅关注具有遗传改变的CVD驱动基因。我们通过使用全转录组基因表达数据克服了这一挑战,并进一步改进了我们的AI/ML模型,以涵盖基于关键转录组生物标志物预测CVD的新算法组合。我们利用这种方法提出了_IntelliGenes_,这是一种用于识别新型生物标志物和训练单病预测模型的新型AI/ML管道。

在这项研究中,我们利用先前的工作,提出了一种新的AI/ML方法,该方法使用多组学数据,整合RNA-seq驱动的基因表达、全基因组单核苷酸多态性(SNPs)和临床人口统计数据(图1)。基于差异表达的CVD相关生物标志物被调查以寻找基因及其调控元件内的致病SNPs。使用三种机器学习算法分析了临床整合基因组和转录组(CIGT)数据集,以准确预测CVD。通过识别遗传生物标志物及其相关SNPs,我们强调了CVD早期检测的潜在指标。这些生物标志物有助于在诊断前识别高风险个体,从而实现及时干预并改善患者预后。在医疗保健中的实施,我们的预测模型可以识别CVD高风险患者,并可适应执行其他单病预测。


(全文结束)

大健康
大健康