我们是否容易患上特定疾病,在很大程度上取决于基因组中无数的变异。然而,特别是那些在人群中罕见出现的遗传变异,其对某些病理特征表现的影响一直难以确定。来自德国癌症研究中心(Deutsches Krebsforschungszentrum, DKFZ)、欧洲分子生物学实验室(EMBL)和慕尼黑工业大学的研究人员引入了一种基于深度学习的算法,可以预测罕见遗传变异的影响。该方法使得高风险个体能够被更精确地区分,并有助于识别参与疾病发展的基因。
每个人的基因组与其同类相比都有数百万个不同的构建块。这些差异被称为变异。许多这些变异与特定的生物特征和疾病有关。这种关联通常通过所谓的全基因组关联研究来确定。但罕见变异(在人群中的频率仅为0.1%或更低)的影响往往在关联研究中被统计忽略。“特别罕见的变异通常对生物特征或疾病的表型有显著影响,”本研究的第一作者之一布莱恩·克拉克(Brian Clarke)说。“因此,它们可以帮助我们识别在疾病发展中起作用的基因,从而指引我们找到新的治疗途径,”另一位共同第一作者埃娃·霍尔特坎普(Eva Holtkamp)补充道。
为了更好地预测罕见变异的影响,由奥利弗·斯特格尔(Oliver Stegle)和布莱恩·克拉克领导的DKFZ和EMBL团队以及朱利安·加涅尔(Julien Gagneur)领导的慕尼黑工业大学团队开发了一种基于机器学习的风险评估工具。“DeepRVAT”(罕见变异关联测试),研究人员给这种方法命名,是第一个在基因组关联研究中使用人工智能(AI)来解码罕见遗传变异的方法。
该模型最初是在英国生物银行(UK Biobank)的161,000名个体的序列数据(外显子序列)上进行训练的。此外,研究人员还输入了个体的遗传影响的生物特征信息以及参与这些特征的基因信息。用于训练的序列包括约1300万个变异。每个变异都有详细的“注释”,提供定量信息,说明该变异可能对细胞过程或蛋白质结构产生的影响。这些注释也是训练的核心组成部分。
训练完成后,DeepRVAT能够预测每个个体哪些基因的功能因罕见变异而受损。为此,算法使用个体变异及其注释计算一个数值,描述基因受损的程度及其对健康的潜在影响。
研究人员在英国生物银行的基因组数据上验证了DeepRVAT。对于34个测试特征,即与疾病相关的血液检测结果,测试方法发现了352个与参与基因的关联,远远超过了所有现有的模型。使用DeepRVAT获得的结果非常稳健,并且在独立数据中的可重复性比替代方法的结果更好。
DeepRVAT的另一个重要应用是评估某些疾病的遗传易感性。研究人员将DeepRVAT与基于更常见遗传变异的多基因风险评分结合使用。这显著提高了预测的准确性,尤其是对于高风险变异。此外,事实证明,DeepRVAT识别出了许多现有测试未发现的疾病——包括各种心血管疾病、癌症类型、代谢和神经疾病——的遗传关联。
“DeepRVAT具有显著推进个性化医疗的潜力。我们的方法不依赖于特征类型,可以灵活地与其他测试方法结合使用,”物理学家和数据科学家奥利弗·斯特格尔说。他的团队现在希望尽快在大规模试验中进一步测试风险评估工具并将其投入应用。科学家们已经与INFORM组织者取得联系,例如。该研究的目的是利用基因组数据为复发儿童癌症患者识别个性化治疗方案。DeepRVAT可以帮助揭示某些儿童癌症的遗传基础。
“我对DeepRVAT在罕见疾病应用中的潜在影响感到兴奋。罕见疾病研究的一个主要挑战是缺乏大规模的系统数据。利用AI的力量和英国生物银行中的50万个外显子,我们客观地识别出哪些遗传变异最显著地损害了基因功能,”慕尼黑工业大学的朱利安·加涅尔说。
下一步是将DeepRVAT整合到德国人类基因组表型档案(GHGA)的基础设施中,以便在诊断和基础研究中应用。DeepRVAT的另一个优势是该方法所需的计算能力远低于类似模型。DeepRVAT作为一个用户友好的软件包提供,可以使用预训练的风险评估模型或使用研究人员自己的数据集进行专门目的的训练。
布莱恩·克拉克、埃娃·霍尔特坎普、哈基梅·Öztürk、马塞尔·Mück、马格努斯·瓦尔贝格、凯拉·迈耶、费利克斯·穆兹林格、费利克斯·布雷希特曼、弗洛里安·R·Hölzlwimmer、约纳斯·林德纳、陈志芬、朱利安·加涅尔、奥利弗·斯特格尔:使用深度集合网络整合变异注释以增强罕见变异测试。


