Summit超级计算机由美国能源部橡树岭国家实验室(ORNL)运营,计划在今年年底退役。然而,在其高绩效计算和科学研究的遗产中,又增添了新的一章。7月份发表在《科学》杂志上的一项研究中,研究人员利用Summit的强大计算能力,分析了超过50万名美国退伍军人的基因数据,这是迄今为止最广泛和最多样化的全基因组关联研究之一。
这项研究审视了635,969名不同年龄、种族和背景的退伍军人的2,068个特征的遗传结构。研究的核心是退伍军人事务部维护的“百万退伍军人计划”(Million Veteran Program, MVP),该计划提供了本研究所需的关键数据,旨在了解基因、特征和疾病之间的关系。
值得注意的是,MVP的29%参与者具有非洲、美洲混血和东亚祖先的遗传相似性,填补了主要集中在欧洲后裔人群的遗传研究中的关键空白。
这项大规模研究不仅增强了我们对疾病遗传基础的基本认识,还为更精确、更具包容性的医疗策略铺平了道路,这些策略对遗传多样化的社会更加有效。
为了探索“百万退伍军人计划”提供的庞大数据库,研究人员转向了当时全球最强大的计算系统之一——Summit。这台领导级计算机的运算速度达到惊人的200 petaflops,相当于每秒200千万亿次计算,使其能够处理这一人口水平全基因组关联研究(GWAS)中涉及的海量数据。
研究人员指出,这种全面的研究通常因缺乏必要的计算资源而受阻,尤其是在研究美国代表性不足的少数族裔群体时。VA提供的详细数据与Summit的计算能力相结合,使这项研究得以成功进行。
原始的VA数据设计用于CPU系统上的分析,必须经过重大转换才能优化为适用于Summit的GPU架构。这一转换过程历时数年,涉及开发能够在不牺牲准确性的情况下探索基因标记与健康特征之间关联的计算方法。
Summit的GPU功能使研究人员能够高效地剖析近4400万个遗传变异与2000多个特征之间的关系,处理了超过30 TB的原始数据。这项全面的分析运行了超过50万节点小时,发现了26,049个显著的基因与健康特征关联,涉及1,270个健康特征。这些发现可通过美国国立卫生研究院的国家医学图书馆访问,有助于全球研究社区更好地理解遗传学并推动精准医疗的发展。
研究人员Ravi Madduri强调了“百万退伍军人计划”基因数据库的独特地位,称其为“世界上独一无二的世界级数据库”。与其他基因数据存储库(如英国生物银行)相比,MVP数据库因其多样性和规模而脱颖而出。
为了管理和解释这一庞大的数据集,ORNL团队开发了一个强大的计算管道,能够进行大规模可视化,包括图表、图形和图表。这一工作得到了CIPHER在线平台的支持,该平台促进了全球对这些可视化的访问,使世界各地的研究人员能够有效地探索数据。ORNL软件工程师兼管道团队负责人David Heise表示,他们的目标是“以易于访问的方式提供高级别的数据”,确保广泛的科学界能够利用这些信息,同时不损害个人隐私,因为可视化仅包含汇总统计数据。
ORNL项目经理Laura Davies强调了这一项目的双重好处:通过定向研究支持退伍军人健康,同时扩大跨学科的科学研究范围。这一倡议得到了退伍军人事务部和能源部科学办公室的先进科学计算研究计划的支持,体现了ORNL致力于解决当今最紧迫的科学挑战的决心。
Summit超级计算机原本计划于2023年退役,但由于其后续者——exascale级别的Frontier的部署,其服务期延长至2024年底。OLCF科学总监Bronson Messer表示:“Summit是一台非常成功的超级计算机,没有理由将其成功限制在五年内。它当时仍然是美国第四快的超级计算机,仍然有许多科学家希望利用Summit的计算能力,而且我们在2024年仍有数据中心设施可用。因此,让Summit继续运行到2024年进行另一年的生产是非常合理的。”
在延长的服务期间,Summit超级计算机参与了多项重要的科学努力。它通过分析复杂的生物数据,推动了阿尔茨海默病的新治疗方法;通过预测中子星和黑洞的特征,增进了我们对宇宙的理解;通过先进的大分子药物设计,创造了更有效和个性化的药物;并通过研究气溶胶病毒传播机制,在全球健康危机中提供了关键见解。
Summit超级计算机的遗产不仅在于其计算能力,还在于其对科学和健康研究的影响。在六年的服役期内,这台超级计算机为如何利用技术服务于人类设定了新的标准。
(全文结束)


