DeepRVAT AI 模型预测罕见遗传变异的影响DeepRVAT AI Model Predicts Effects of Rare Genetic Variants

环球医讯 / AI与医疗健康来源:www.genengnews.com德国 - 英语2024-09-26 11:00:00 - 阅读时长5分钟 - 2277字
德国癌症研究中心等机构的研究人员开发出基于深度学习的 DeepRVAT 算法,可预测罕见遗传变异的影响,有望推动个性化医疗。
DeepRVATAI罕见遗传变异影响预测个性化医疗疾病风险基因-性状关联全基因组关联研究机器学习英国生物银行健康访问遗传易感性德国人类基因组表型档案
DeepRVAT AI 模型预测罕见遗传变异的影响

德国癌症研究中心(DKFZ)的研究人员与欧洲分子生物学实验室(EMBL)和慕尼黑工业大学(TUM)的同事合作,推出了一种基于深度学习的算法,能够预测罕见遗传变异的影响。这种方法,即深度罕见变异关联测试(DeepRVAT),能够更精确地区分高疾病风险人群,并有助于识别与疾病发展有关的基因。

DKFZ 的物理学家和数据科学家 Oliver Stegle 博士表示:“DeepRVAT 有可能显著推进个性化医疗。我们的方法不受性状类型的限制,并且可以灵活地与其他测试方法相结合。”Stegle 是该团队在《自然遗传学》上发表的论文的共同资深作者和共同通讯作者,论文题为“利用深度集网络整合变异注释增强罕见变异关联测试”。在他们的报告中,团队指出:“DeepRVAT 利用深度神经网络的灵活性来整合罕见变异注释,同时为基因-性状关联测试提供校准的统计框架。”

每个人的基因组在数百万个个体构建块上都与其他人不同。许多这些遗传变异与特定的生物学性状和疾病有关。这种相关性通常通过全基因组关联研究(GWAS)来确定。DKFZ 的共同第一作者 Brian Clarke 博士说:“特别是罕见变异,往往对生物学性状或疾病的表现有显著更大的影响。它们可以帮助识别在疾病发展中起作用的那些基因,然后为我们指出新的治疗方法的方向。”TUM 的共同第一作者 Eva Holtkamp 博士补充道。

然而,在关联研究中,在人群中发生频率仅为 0.1%或更低的罕见变异的影响在统计上常常被忽略。作者写道:“罕见的遗传变异对表型可能有很强的影响,但在遗传分析中考虑罕见变异在统计上具有挑战性……将 GWAS 策略扩展到罕见变异必须应对大量低频变异,由于稀疏性导致统计功效低,并增加了多重测试的负担。”

为了更好地预测罕见变异的影响,Stegle、Clarke 和 TUM 的 Julien Gagneur 博士领导的团队开发了一种基于机器学习的风险评估工具。他们声称 DeepRVAT 是第一个在基因组关联研究中使用人工智能(AI)来解读罕见遗传变异的工具。

该模型最初在来自英国生物银行的 161,000 个人的序列数据(外显子组序列)上进行训练。此外,研究人员还输入了有关个体受遗传影响的生物学性状以及与性状有关的基因的信息。用于训练的序列包含约 1300 万个变异。对于每一个变异,都有详细的“注释”,提供了关于相应变异可能对细胞过程或蛋白质结构产生的影响的定量信息。这些注释也是训练的核心组成部分。

训练后,DeepRVAT 能够预测每个个体中哪些基因的功能受到罕见变异的损害。为此,该算法使用个体变异及其注释来计算一个数值,该数值描述了基因受损的程度及其对健康的潜在影响。团队解释说:“DeepRVAT 是一个端到端的基因型到表型模型,首先考虑罕见变异对基因功能(基因损伤模块)的非线性影响,然后将一个或多个性状的变异建模为估计的基因损伤分数的线性函数(表型模块)。基因损伤模块估计了一个与基因和性状无关的基因损伤评分函数,该函数考虑了罕见变异的综合影响,从而使模型能够推广到新的性状和基因。”

研究人员在来自英国生物银行的基因组数据上验证了 DeepRVAT。对于 34 个测试性状,即与疾病相关的血液测试结果,该测试方法发现了 352 个与相关基因的关联,远远超过了所有先前存在的模型。用 DeepRVAT 获得的结果被证明是稳健的,并且在独立数据中比其他方法的结果更具可重复性。DeepRVAT 的另一个重要应用是评估对某些疾病的遗传易感性。研究人员将 DeepRVAT 与基于更常见遗传变异的多基因风险评分相结合。这显著提高了预测的准确性,特别是对于高风险变异。他们写道:“在来自英国生物银行的 34 个定量和 63 个二元性状上,我们发现 DeepRVAT 在基因发现方面取得了实质性的进展,并改进了对高遗传风险个体的检测。”

此外,事实证明,DeepRVAT 识别了许多疾病的遗传相关性 - 包括各种心血管疾病、癌症类型、代谢和神经疾病 - 这些是现有测试未发现的。在他们的论文中,团队指出:“DeepRVAT 代表了一个概念上的进步,一方面分离了与性状无关的基因损伤评分,另一方面进行了基因 - 性状关联测试。我们已经证明了这种损伤评分在快速基因 - 性状关联测试中的效用,通过考虑模型在训练期间未看到的性状。”

Stegle 的团队希望尽快在大规模试验中进一步测试风险评估工具并将其投入应用。例如,科学家们已经与 INFORM 的组织者取得联系。这项研究的目的是利用基因组数据为癌症复发的儿童确定个性化的治疗方案。DeepRVAT 有助于揭示某些儿童癌症的遗传基础。Gagneur 说:“我发现 DeepRVAT 在罕见疾病应用方面的潜在影响令人兴奋。罕见疾病研究的主要挑战之一是缺乏大规模、系统的数据。利用人工智能的力量和英国生物银行中的 50 万个外显子组,我们客观地确定了哪些遗传变异最显著地损害基因功能。”

下一步是将 DeepRVAT 整合到德国人类基因组表型档案(GHGA)的基础设施中,以促进在诊断和基础研究中的应用。DeepRVAT 的另一个优点是该方法所需的计算能力比同类模型少得多。

DeepRVAT 作为软件包提供,可以使用预先训练的风险评估模型,也可以使用研究人员自己的数据集进行专门训练。团队表示:“DeepRVAT 作为用户友好的软件包提供,支持基因损伤模块的从头训练和预训练模型的应用,在计算效率方面比现有方法有显著提高。”

大健康
大健康