心血管疾病的多模态视觉知识图谱A multimodal vision knowledge graph of cardiovascular disease | Nature Cardiovascular Research

环球医讯 / 心脑血管来源:www.nature.com英国 - 英语2026-01-06 04:46:25 - 阅读时长16分钟 - 7502字
本研究开发了CardioKG,一种整合了来自生物医学图像的20多万个计算机视觉衍生心血管表型与18个生物数据库数据的知识图谱,用于建模超过百万个关系;研究采用变分图自动编码器从知识图谱生成节点嵌入,以预测基因-疾病关联、评估药物可及性并识别药物重定位策略;模型成功预测了心力衰竭的主要治疗候选药物甲氨蝶呤和心房颤动的二肽基肽酶-4抑制剂,证明添加成像数据可增强疾病机制的发现,为心血管疾病的精准医疗提供了新途径,具有重要的临床转化价值。
心血管疾病CardioKG生物医学成像基因-疾病关联药物重定位可药物化基因心房颤动心力衰竭心肌梗死通路富集生存分析
心血管疾病的多模态视觉知识图谱

摘要

理解基因-疾病关联对于揭示病理机制和识别潜在治疗靶点至关重要。知识图谱可以表示和整合来自多个生物医学源的数据,但缺乏关于靶器官结构和功能的个体水平信息。在此,我们开发了CardioKG,一种知识图谱,它整合了来自生物医学图像的20多万个计算机视觉衍生心血管表型与从18个生物数据库提取的数据,以建模超过一百万种关系。我们使用变分图自动编码器从知识图谱生成节点嵌入,用于预测基因-疾病关联、评估药物可及性和识别药物重定位策略。该模型预测了心血管疾病主要病因的遗传关联和治疗机会,这些关联与改善的生存率相关。候选疗法包括用于心力衰竭的甲氨蝶呤和用于心房颤动的二肽基肽酶-4抑制剂,添加成像数据增强了通路发现。这些能力支持使用生物医学成像来增强图结构模型,以识别可治疗的疾病机制。

主要内容

理解基因-疾病关联对于解码各种疾病的分子机制和识别潜在治疗靶点至关重要¹。知识图谱(KGs)已被用于系统性地建模和探究调节复杂系统和疾病在多个组织尺度上的生物学²。知识图谱以包含节点和边的图结构表示现实世界事实和语义关系。知识图谱中的实体代表基因组学、转录组学、蛋白质组学、分子功能(MF)、细胞内和细胞间通路、表型、治疗和环境暴露³。为构建知识图谱,信息从精选数据库、非标准化存储库和不断发展的本体中聚合⁴。机器学习方法应用于将实体和关系映射到低维向量空间,更有效地表示其语义结构,用于下游预测任务⁵。

虽然知识图谱为预测潜在基因-疾病关联和优先选择进一步调查的候选者提供了全面框架⁴,⁶,但它们缺乏编码靶器官结构和功能的个体水平表型。在本工作中,我们介绍了CardioKG,一种知识图谱,它整合了来自生物医学成像的丰富计算机视觉衍生心血管结构和功能表型与来自各种生物数据库的数据。这种方法利用了更接近疾病病理生理学的人类"内表型",以改善基因-疾病关联的预测。我们通过开发一种保留节点内在属性及其方向关系的嵌入算法实现这一点。我们评估了这种视觉增强知识图谱的性能,使用21种不同的成像特征以及来自18个生物医学数据库的数据来检测基因-疾病关联和药物重定位,通过功能富集分析评估优先基因在关键生物通路中的作用。这项工作展示了生物医学成像如何在人类疾病多模态图结构模型中拥有语义上有意义的信息,用于精准医学应用。

研究结果

研究概述

英国生物银行研究在2006年至2010年间招募了约50万名40-69岁的参与者⁷。一项子研究召回参与者进行心脏磁共振(CMR)成像,随后使用计算机视觉分析测量21种图像衍生表型,捕捉心室、心房和主动脉的动态结构和功能收缩期和舒张期特征⁸。为构建知识图谱,我们选择了4,280名具有成像数据并被诊断为心房颤动(AF)、心力衰竭(HF)、心肌梗死(MI)、肥厚型心肌病(HCM)或扩张型心肌病(DCM)的参与者(补充表1),以及5,304名健康参与者,以捕获广泛的表型多样性。诊断时的平均年龄为67.6±8.8岁,CMR检查时的平均年龄为69.5±6.6岁。从诊断到CMR的平均时间为1.95±6.35年。总共,模型中使用了超过20万个图像衍生表型。结果针对我们队列中三种最普遍且可能可治疗的疾病(AF、HF和MI)呈现。所选参与者的基线特征总结在补充表2中。使用489名无成像数据的验证组来评估药物重定位结果。

我们构建了CardioKG,一种整合心血管图像衍生特征与外部生物医学数据库的知识图谱,以建模基因、疾病和表型之间的复杂生物关系。然后,我们训练了变分图自动编码器(VGAE)⁹,使用我们开发的方法从生成的知识图谱生成节点嵌入,该方法保留方向关系,使机器学习模型能够更准确地预测基因-疾病关联。功能富集⁶分析用于识别相关分子机制、生物过程和通路。对预测基因进行药物可及性分析¹⁰,以评估治疗潜力。最后,我们进行了药物重定位¹¹分析,以识别可重新定位以靶向目标疾病的现有药物。图1显示了研究的总体设计,图2显示了如何选择参与者。图3显示了计算机视觉衍生表型如何与知识图谱中的其他实体连接。

研究团队构建了包含33,277个节点和1,195,437种关系的CardioKG知识图谱。节点包括基因(18,606个)、人类参与者(9,584个)、药物(2,106个)和分子通路(1,707个)。表型异常与人类疾病(1,036个)和解剖区域(160个)相关联,其中包括在成像上分割的5个结构,测量每个选定疾病的21种特征。

研究采用基于定向变分图自动编码器(DVGAE)的架构生成知识图谱的嵌入,同时保留节点和关系属性以及关系的方向性。重建图准确表示了原始图,嵌入的边级准确率高达98.1%。替代方法如Node2Vec¹⁵、TransE¹⁶和ComplEx¹⁷无法捕获节点和边特定特征或方向性,而这些是我们知识图谱结构的属性。

基因-疾病关联预测

研究将与疾病相关或不相关的基因嵌入与每个目标疾病的嵌入连接起来(补充表3-5)。训练使用的标准标签来自DisGeNET,这是一个包含超过200万个基因-疾病关联的数据库,涉及29,000个基因和超过42,000种疾病,包含430万个变异-疾病关联¹²,这些数据从十几个存储库中聚合,注释临床上相关的变异(ClinVar)或基因(ClinGen和Genomics England PanelApp等)。

三种机器学习算法—随机森林、支持向量机(SVM)和人工神经网络(ANNs)—在连接嵌入上训练,使用五折交叉验证来预测基因与疾病之间的关联。基于准确率(HF中72.4%、AF中75.0%、MI中83.3%)、特异性(HF中93.0%、AF中97.0%、MI中91.7%)、敏感性(HF中52.0%、AF中51.6%、MI中69.2%)和接收者操作特征曲线下面积(AUC-ROC,HF中0.80、AF中0.78、MI中0.83),SVM实现了最佳性能(补充表6)。因此,SVM被用于预测无已知疾病基因-疾病关联的未标记基因的潜在关联。每个预测基因都根据其与疾病的预测关联概率进行分配和排名。选择了前十个预测基因(补充表7)作为功能富集分析的示例。对使用和不使用成像特征的知识图谱进行了通路富集比较。使用超几何检验来确定一组预测基因是否在预定义的参考基因集中统计上过表达。

HF的前十个预测基因包括GATA2AGR1EP300,它们与815条通路显著相关(补充图1和补充信息),其中66条被确定为相关通路,如血管生成和MAPK级联(补充图2)。这些发现将参与调节细胞再生和衰老的信号级联中的基因作为HF的潜在遗传修饰因子。最近在未用于知识图谱训练的全基因组关联研究(GWAS)数据中也发现了MAPK通路中的变异¹⁸。没有成像特征时,仅识别出四条相关通路(补充图2和补充表7)。

在AF中,包括SRCGATA1HSPA8在内的优先基因在658条通路中富集,其中14条是与AF相关的相关通路,包括调节心脏传导、对缺氧的反应和免疫系统过程调节的过程(补充图3和补充信息)。这些发现将可能调节AF中免疫反应和炎症的基因作为心律失常疾病的新兴风险因素¹⁹,并支持SRC的潜在作用,该基因已被提议作为其他心血管疾病的有希望靶点²⁰。没有成像特征时,仅识别出一条AF相关通路(补充表7和补充图3)。

最后,在MI中,预测基因包括PCNAHTTSNCA,它们与406条通路显著相关,包括42条与MI相关的相关通路,如细胞凋亡和对压力的细胞反应(补充图4和补充信息)。没有CMR特征的富集分析仅揭示了四条与MI相关的相关通路(补充表7和补充图4)。

预测基因的药物可及性

我们使用DGIdb评估了每种疾病的前十个预测基因的治疗潜力,该数据库整理了已知抑制、激活或以其他方式调节特定基因或其蛋白质产物活性的药物信息。此评估重点是确定CardioKG优先考虑的基因是否可被现有药物作用。在前十个预测基因中,根据DisGeNET,这些基因以前未被报告为与HF、AF或MI显著相关,五个被确定为可药物化(ARAPPGATA2EGR1EP300)。这些基因已被认为是潜在的治疗靶点,可被总共48种药物调节。包括单克隆抗体ponezumab和bapinezumab在内的药物被确定为针对APP的潜在候选药物(补充图5)。

对于与AF相关的预测基因,七个是可药物化的(SRCCASP8DAPK1H2AXHSPA8EP300HNF4A)。这些基因可被37种药物靶向,包括几种抗糖尿病"二肽基肽酶-4抑制剂"(DPP-4抑制剂),这些药物在糖尿病患者中有观察性证据表明其具有潜在的抗心律失常作用(补充图6)²¹。最后,对于MI,在预测基因中,两个被确定为可药物化的(SNCAH2AX)。这些基因可被四种药物靶向,包括细胞凋亡诱导剂eltanexor和selinexor(补充图7)。没有KG中的CMR特征时,每种HF(补充图8)、AF(补充图9)和MI(补充图7)仅识别出两个基因可能具有药物可及性。

图像衍生表型的重要性

通过PageRank²²评估了编码成像特征的重要性,该方法基于传入连接的结构量化节点中心性,为连接到其他高排名节点的节点分配更高分数(补充图10)。CMR实体得分最高(51.09-51.60),反映了成像在图中的中心位置和与其他节点类型的连接密度(图4),其中左心室射血分数(LVEF)排名最高的特征。

为评估其结构作用,我们进行了一项消融实验,从图中移除了CMR节点。这导致SVM模型性能下降(补充表6)。CMR节点充当连接解剖特征与遗传和疾病水平数据的中介,其移除影响图连接性,削弱了模型捕获间接关联的能力。这导致预测与疾病相关通路的对齐度降低。移除空气污染等环境变量并未改变HF的前十个预测基因的组成。在排除环境节点之前和之后都识别出相同的基因,仅在排名顺序上有微小差异(补充表8)。这种一致性表明模型的预测是稳健的,并且环境因素虽然在图中高度连接,但并不单独驱动基因-疾病关联。

当包含CMR特征时,为目标疾病识别的相关通路数量也更大(χ²,P=0.001)。这些发现共同表明,包含成像节点增强了知识图谱的结构和功能复杂性,使模型能够更好地利用互连的生物数据,发现与更广泛关键通路相关的基因。

药物重定位

将目标疾病的嵌入与指示或禁忌的药物的嵌入连接起来,用于训练模型以预测潜在的疾病-药物关联。通过目标基因的富集分析、生存分析和基于图的验证进一步评估预测药物。

基于知识图谱的机器学习模型确定了HF与一系列现有药物之间的潜在关联。其中,前十个候选药物包括甲氨蝶呤、托吡酯和雷诺嗪,根据其预测关联分数进行优先排序(补充表9)。使用已知目标基因对预测药物进行通路富集分析。甲氨蝶呤的目标DHFR与氧化应激反应调节相关,这是HF和心脏重塑病理生理学中的关键因素²³。此外,托吡酯的目标,包括SCN5ASCN10ACACNA1CCACNA1D,显示出与HF关键通路(如心肌收缩和动作电位调节)的显著关联。

使用未包含在模型开发中的英国生物银行参与者子集,确定预测药物是否与HF中改善的生存结果相关。由于大多数预测药物暴露的个体数量有限,甲氨蝶呤是唯一包含在生存分析中的候选药物。这里考虑了被诊断为HF和类风湿关节炎(RA)的参与者(n=181),因为RA是甲氨蝶呤的常见适应症。根据使用常用RA药物的治疗确定了三个亚组:(1)使用甲氨蝶呤的RA患者(n=121),(2)使用柳氮磺吡啶的RA患者(n=27)和(3)使用羟氯喹的RA患者(n=33)(补充表10)。所有三种药物都是常规用于RA管理的疾病修饰抗风湿药物。与使用羟氯喹和柳氮磺吡啶的患者相比,同时接受甲氨蝶呤治疗RA的HF患者具有更高的生存概率(风险比0.65(95%置信区间0.48-0.89),P<0.01)(补充图12和补充表11)。

为外部验证这些发现,我们分析了BioVU生物库的数据,其中包含超过30万名参与者的信息²⁴。我们评估了同时患有HF和RA的患者(n=6,876)。为确保无偏分析,我们使用R包MatchIt进行倾向匹配²⁵。之后,我们使用接受甲氨蝶呤(n=274)或羟氯喹(n=200)和柳氮磺吡啶(n=16)治疗的参与者。作为终点,我们将"不良事件"定义为所有原因死亡或纽约心脏协会分类系统中报告的3级或更高级别。甲氨蝶呤显示出更高的生存概率(风险比0.71(95%置信区间0.5-0.99),P<0.05),支持英国生物银行的观察结果(补充表12和补充图13)。最近对TriNetX Diamond网络中90万名成年RA患者的大型注册分析报告称,与未经治疗的倾向匹配RA患者相比,使用甲氨蝶呤与更少的心血管事件相关,尤其是充血性HF²⁶。

目前批准用于HF的药物和KG预测的药物具有高余弦相似度分数(补充图14),这表明相似的向量表示,表明它们在图中共享相似的关系或结构上下文,强化了它们潜在的治疗相关性(补充图14)。

对AF进行了类似的分析,其中前十个候选药物,包括甲氨蝶呤、唑尼沙胺、acamprosate和丙磺舒,被优先考虑(补充表13)。富集分析显示,甲氨蝶呤的目标DHFR也参与促进AF的细胞通路²⁷,²⁸。此外,唑尼沙胺的目标,包括SCN5ASCN4BSCN1B,与AF中的相关通路相关,如心肌细胞膜复极化和去极化的调节(补充图15)。在同时患有RA和AF并接受甲氨蝶呤和替代药物治疗的患者中进行了类似的生存分析(补充表14),但未观察到生存概率的显著差异(补充图17和补充表15)。基于网络的验证显示,预测药物与已指示用于AF的药物共享高余弦相似度,支持其治疗相关性和生物学合理性(补充图18)。

对于MI,根据预测分数选择的十个最高排名药物候选物被优先用于通路富集分析(补充表16)。这包括伏立诺他,它靶向HDAC6调节对氧化应激的细胞反应和活性氧代谢的调节(补充图16和19)。由于这些药物不常处方,未进行生存分析。基于图的验证还表明,预测药物与已批准用于MI的药物之间具有高余弦相似度(补充图20)。

讨论

知识图谱是表示不同现实世界生物医学实体之间关系的语义网络,以实现对人类疾病的系统研究。CardioKG通过整合代表基因组学、分子通路和暴露之间关系的19个不同生物数据库的数据,提供了心血管疾病的全面视图。在这里,我们展示了如何利用从心脏和循环的计算机视觉分析中提取的精确表型,利用这种丰富的互连生物数据来发现与全球发病率和死亡率三大原因相关的潜在候选基因和治疗手段²⁹。我们还展示了预测的药物重定位改善HF患者预后的潜力。这些共同表明,使用心血管成像可以显著提高疾病特异性语义模型的性能。

GWAS发现常见变异与疾病之间的关联³⁰,但在识别因果机制、依赖单一特征和不利用先验知识方面存在局限性。虽然最近使用机器学习(如基于人工智能的总结)的努力旨在改善GWAS解释³¹,但大多数相关变异对特征或疾病的影响仍然很小,很少指明可操作的靶点。相比之下,知识图谱已成为整合跨多个领域的数据以预测潜在基因-疾病关联的有力框架³²,³³,³⁴。一个重要瓶颈是可用于链接到网络中其他语义信息的个体水平表型的有限可用性。通过利用大型生物银行人群中MRI的图像分割和运动跟踪的进展,我们展示了如何通过定量器官表型丰富知识图谱网络。在CardioKG中,每个图像衍生表型的节点都与编码解剖部位、基因和疾病的节点进行语义链接。我们展示了这如何为发现的基因提供更大的通路富集、更高产量的潜在可药物靶点以及药物重定位的生物学合理预测。我们还介绍了一个框架,该框架生成知识图谱嵌入,同时保留节点和关系属性中的方向性,实现高重建保真度。

以HF为例,CardioKG优先考虑了与包括细胞凋亡、血管生成、炎症和组织缺氧在内的调控通路相关的基因。一个优先基因是APP,它与阿尔茨海默病中的淀粉样蛋白生成通路相关,但这种多器官疾病也与系统性炎症和影响包括心脏在内的外周器官的氧化应激相关,可能与淀粉样蛋白沉积相关³⁵。知识图谱预测了几种与APP相互作用的药物化合物作为激动剂、抑制剂或调节剂。其中,知识图谱还预测人源化单克隆抗体作为靶向APP的潜在治疗药物³⁶,³⁷。知识图谱建议将甲氨蝶呤、托吡酯和雷诺嗪用于HF的药物重定位,对心肌收缩和动作电位调节具有富集关联。甲氨蝶呤还显示出与使用其他治疗相比,对同时患有HF和RA的患者具有潜在的生存益处。一项评估甲氨蝶呤对RA患者心血管益处的试验正在进行中³⁸,它具有有利的重定位安全性特征和成本效益³⁹。其益处独立于RA疾病活动的减少,表明知识图谱已识别出甲氨蝶呤在调节心血管风险方面的替代机制⁴⁰。知识图谱还将靶向SCN5A调控的传导系统离子通道的抗癫痫治疗优先考虑为AF的治疗方法,将伏立诺他作为靶向HDAC6线粒体生物发生调节的MI重定位治疗方法⁴¹。

这项工作的局限性在于,英国生物银行人群主要是欧洲血统,这突显了需要用更多样化的人群来丰富知识图谱图像表型的必要性。英国生物银行成像子研究的参与者是随机邀请的⁴²。该人群受到健康志愿者选择偏见的影响,但仍能对暴露、遗传变异和健康状况之间的关联进行有效的科学推断,这些关联是可推广的⁴³。我们考虑了模型训练中的所有HF原因,因为编码亚型在我们人群中患病率低。因此,我们无法预测特定于射血分数保留型HF的关联。这种情况也被认为是几种不同的病理生物实体的聚合⁴⁴。从多个来源获取知识并将其整合到知识图谱结构中的技术仍在发展中,并且在图完成、知识融合和高效推理方面存在技术挑战,这些是活跃发展的领域⁴⁵。目前还没有基于图的生物医学数据模型的既定标准,但随着其使用变得更加广泛,这些标准可能会出现。大型语言模型的使用可能会补充从非结构化文本中获取知识的能力,但仅靠它们可能在生物医学知识发现中给出不准确或不一致的结果⁴⁶。

我们的发现指出,基于视觉的知识图谱具有捕获与基础个体水平病理生理学紧密耦合的表型的潜力,可以加速心血管科学以及更广泛医学中潜在治疗的发现。生物医学成像在语义网络中编码附加信息,CardioKG的多功能架构可推广到多个疾病用例,其中可获得成像。未来的机遇可能在于通过利用更大和更多样化的人群数据集来个性化诊断策略。

【全文结束】

大健康
大健康