研究人员开发出一种人工智能模型,能够识别最可能导致疾病的蛋白质突变,即使这些突变在人类中从未被观察到。
该模型名为popEVE,利用来自数十万不同物种的数据以及人类群体的遗传变异信息构建。庞大的进化记录使该工具能够识别约20000种人类蛋白质中哪些部分对生命至关重要,哪些可以容忍变化。
这使得popEVE不仅能识别致病突变,还能对它们在全身的严重程度进行排序。哈佛医学院和巴塞罗那基因组调控中心(CRG)的研究人员今天在《自然·遗传学》杂志上发表的这一发现,有望改变医生诊断遗传疾病的方式。
半数罕见病患者从未获得明确诊断。popEVE通过帮助医生优先关注最具破坏性的变异,可以改变这一现状。另一优势是它仅需患者的遗传信息即可工作。这对资源有限的医疗系统中的罕见病医学具有重要意义,使诊断更快捷、更简单且成本更低。
“诊所并不总能获取父母的DNA,许多患者独自就诊。popEVE可以帮助这些医生识别致病突变,我们已从与诊所的合作中看到这一点,”该研究的共同通讯作者、基因组调控中心研究员毛法尔达·迪亚斯博士表示。
每个人的基因组都包含许多使其独特的微小差异。这包括错义突变,即改变蛋白质中一个氨基酸的变化。许多是无害的,但有些会导致严重疾病或障碍。挑战在于区分哪些是良性的,哪些是有害的。
然而,并非所有有害突变的危害程度相同。有些导致轻微症状,有些导致严重残疾,有些甚至在儿童期致命。许多AI工具可以预测突变是否危险,但不提供这种行为的渐变尺度。
对于“极其罕见”的疾病,没有病例史可供参考。即使对全球人口进行测序,这些患者的突变也将是全新的。依赖在患者群体或大型队列中发现模式的传统方法无法帮助这些单例病例。
这就是为什么哈佛医学院的黛博拉·马克斯和基因组调控中心(CRG)的乔纳森·弗雷泽与毛法尔达·迪亚斯领导的团队转而求助于进化。
数十亿年来,地球上的进化已经进行了无数次实验,测试蛋白质可以容忍哪些变化,哪些变化过于有害而无法生存。计算模型可以通过比较许多不同物种的蛋白质序列,学习哪些氨基酸位置对生命至关重要。
这就是EVE(变异效应的进化模型)背后的理念,该算法由研究人员于2021年发布。它利用进化模式将人类疾病基因中的突变分类为良性或有害。EVE的表现与许多基于实验室的实验相当甚至更好,并已用于临床遗传学以帮助解释不确定的变异。
但尽管EVE可以判断基因内突变的影响,其评分在基因之间无法直接比较。一个蛋白质中看似严重的变异无法与另一个蛋白质中的变异公平比较。这是一个问题,因为医生需要知道患者基因组中哪个突变最具破坏性。
EVE家族的最新模型popEVE通过结合进化数据与英国生物银行和gnomAD的信息解决了这个问题,这两个是庞大的数据仓库。这些数据集显示了健康人群中存在的变异,帮助模型校准其对人类的预测。
结果是首个能够在整个人类蛋白质组(即人类基因组编码的约20000种蛋白质的完整集合)中对突变进行有意义排序的模型。现在可以在相同的严重性尺度上直接比较基因A中的突变与基因B中的突变。这使医生首次能够优先关注潜在最具破坏性的变异。
为了验证popEVE,研究人员分析了来自31000多个患有严重发育障碍儿童的家庭的遗传数据。在98%的已确定因果突变的病例中,popEVE正确地将该变异排为儿童基因组中最具破坏性的。它的表现优于DeepMind的AlphaMissense等最先进竞争对手。
当研究人员寻找新的候选疾病基因时,popEVE发现了123个此前从未与发育障碍相关的基因。其中许多在发育中的大脑中活跃,并与已知的疾病蛋白质发生物理相互作用。104个仅在一名或两名患者中被观察到。
popEVE的一个优势是,它避免惩罚那些在遗传数据库中代表性不足的人群,而这些数据库主要偏向欧洲血统人群。这是其他工具中的一个问题,它们仅仅因为以前未见过这些变异就标记可能的致病突变。
popEVE通过平等地对待所有人类变异来避免这一点。通过询问突变是否在人类中曾被观察到,无论是在特定人群中出现一次还是在欧洲人群中出现一千次,它预测的假阳性更少。
“没有人应该仅仅因为其社区在全球数据库中未得到充分体现而获得令人担忧的结果。popEVE有助于修复这种不平衡,这是该领域长期以来所缺失的,”该研究的共同通讯作者、基因组调控中心研究员乔纳森·弗雷泽博士表示。
该研究的作者强调,popEVE仅解释改变蛋白质的DNA变化。存在许多其他类型的突变,因此它并不涵盖所有类型的遗传变异。它也不能替代临床判断。医生必须利用病史和症状分析来辅助诊断。
参考文献:Orenbuch R, Shearer CA, Kollasch AW, 等. 人类疾病遗传学的蛋白质组范围模型. Nat Genet. 2025. doi: 10.1038/s41588-025-02400-1
【全文结束】


