人类基因组虽已被绘制了四分之一个世纪,但仍有数百万个DNA碱基对未被解析。一项新研究报告了迄今为止最完整的基因组参考图谱,涵盖了此前难以解析的区域。
一个国际研究团队对65个具有不同祖先背景的基因组进行了测序,填补了此前项目遗留的92%的空白,为临床医生提供了一种资源,使他们能够深入分析此前被认为是“不可读”的基因区域。
这项研究由杰克逊实验室(The Jackson Laboratory)和康涅狄格大学健康中心(UConnHC)的Christine Beck领导。
解码关键DNA区域
Beck指出,这些缺失的部分通常携带影响消化、免疫和肌肉控制的变异。缺乏这些信息,许多疾病的遗传风险模型无法识别整个类别的DNA变化。
临床医生在基因检测未能发现突变但患者仍患病的情况下,常常感到束手无策。新的基因组组装技术让这些区域变得清晰可见,使得变异识别软件终于能够标记出此前方法忽略的复杂重排。
最终解码的最重要区域之一与脊髓性肌萎缩症(spinal muscular atrophy)相关,这是一种严重的遗传疾病。另一个关键区域是主要组织相容性复合体(major histocompatibility complex),这一区域与超过100种不同的健康状况密切相关。
优化人类基因组图谱
研究团队采用了一种新型测序技术,能够读取比传统方法长得多的DNA片段。他们结合了两种测序读长:一种非常精确,另一种则特别长,从而能够捕获大型且复杂的基因区域。
专家们将这些读长拼接在一起,构建出每个人的完整DNA序列,包括来自母亲和父亲的两个版本。
这种方法使得研究人员在约40%的案例中能够实现染色体从端粒到端粒的完整组装,相比此前的尝试有了重大改进。他们还公开了研究方法,使其他科学家可以在此基础上继续研究,而无需从头开始。
研究团队在DNA中发现了什么
研究人员发现了近2000个此前难以检测的复杂DNA变化。他们还识别出超过12000段“跳跃DNA”(jumping DNA),这些片段可以在基因组中移动并影响基因功能。
此外,团队完整绘制了超过1200个着丝粒(centromeres)的图谱,这些是染色体中央帮助其正确分裂的结构。许多着丝粒被发现具有两个可能的“连接点”,而不是一个,这一发现可能改变科学家对遗传稳定性的理解。
研究人员观察到着丝粒核心区域的α卫星重复序列长度存在高达30倍的差异,这种变异一旦与临床记录结合,可能影响生育能力或癌症风险。在填补这些空白之前,此类比较是不可能实现的。
专家们还绘制了以高度变异著称的淀粉酶基因簇(amylase gene cluster)图谱,该区域影响人类对淀粉的消化能力。如此详细的图谱使得人类学家可以将基因与特定地区的饮食传统联系起来。
多样化的基因组提升了图谱质量
此前的参考基因组主要基于欧洲人群的基因组,这种局限性在过去几十年中导致了风险评分和药物研究的偏差。非洲、南美和亚洲的临床医生多次报告检测结果与患者实际健康状况之间存在不匹配。
新发现的插入变异中,近60%和缺失变异中14%出现在不到1%的人群中,使其成为罕见病诊断的理想标记。
此前使用短读长测序技术可识别出数万个候选变异,现在则可以缩小到数百个,从而加快了对家庭的诊断反馈。
这一包容性策略延续了2023年发表的泛基因组(pangenome)草案,后者将47个基因组整合成基于图谱的参考系统。新研究在此基础上增加了深度和广度,提供了高质量的完整序列,而此前的泛基因组仅勾勒出可能性。
完整基因组测序的实现
“直到过去三年,技术才发展到可以测序完整基因组的程度,”杰克逊基因组医学实验室的Charles Lee指出。他认为65个完整基因组只是一个起点,而不是终点。
“越来越多的人意识到这些序列并非‘垃圾’,”欧洲分子生物学实验室海德堡分部(EMBL Heidelberg)代理负责人Jan Korbel补充道,他指的是现在被解码的重复DNA。Korbel强调,这一资源对所有人开放探索。
两位科学家都认为,这些数据将成为大型医疗健康项目的起点,从新生儿筛查到预测多基因工具,使每个社区都能公平受益。区域性医疗系统已经在试点这些应用。
基因组图谱的下一步
该研究联盟已将其基因组组装数据整合进基于图谱的工具中,使得常规的短读长数据也能受益于更丰富的参考图谱。初步测试显示,每个基因组的结构变异检测数量已超过26,000个,约为此前数量的两倍。
随着测序成本迅速下降,全相位、端到端的基因组测序很快将成为诊断实验室的常规操作,结束医生依赖部分图谱和推测的时代。曾经花费数百万美元的临床基因组测序,如今在某些机构已降至1万美元以下。
Beck表示,理解健康需要完整的遗传蓝图,而这项研究终于为临床医生提供了大部分缺失的页面。随着长读长测序技术在日常医疗中日益普及,剩余的空白也将被填补。
该研究发表在《自然》(Nature)期刊上。
【全文结束】


