金斯顿大学一项突破性研究计划正通过人工智能革新遗传科学,并获得亚马逊科学的资金支持。该项目将专注于解码人类DNA中庞大的非编码区域(通常称为"暗基因组"),这些区域对疾病机制和个性化医疗具有关键性启示。
由计算机科学高级讲师法兹娜·拉赫曼博士、网络工程与数字技术研究所主任让-克里斯托夫·内贝尔教授及博士生梅加·赫奇领衔的研究团队,已荣获享有盛誉的亚马逊AWS人工智能研究奖。其目标是开发并训练高效语言学习模型(LLMs),专门用于解码非编码DNA(即暗基因组)。
数十年来,占人类基因组绝大部分的非编码DNA曾被视作"垃圾DNA"。但最新研究证实,它对基因表达具有强大调控作用,超过90%的疾病相关变异均位于这些非编码区域。理解这些区域对实现个性化医疗至关重要,却长期面临重大计算障碍。
现有基因组语言学习模型将DNA序列类比为语言,但其架构难以处理捕获远端调控信号所需的数万个碱基对。金斯顿研究团队早前发表于《MDPI基因》期刊的研究发现:基因组语言学习模型中并非所有网络层都不可或缺;通过剪枝非关键层,可在保持精度的同时几乎缩短一半微调时间,这表明亟需更精简的模型架构。
基于此发现,本研究将聚焦新型架构设计,以期更高效处理超长DNA序列。团队将运用亚马逊Trainium硬件及AWS Neuron软件栈,训练Mamba、Hyena和RKWV等模型——这些模型特别适合模拟调控DNA中存在的稀疏长距离相互作用。
研究团队旨在证明:相比依赖同等规模图形处理器集群的现有方法,采用更先进变异解读技术可显著降低成本并减少碳足迹。若成功实施,该项目将通过提升剪接变化、转录因子结合、染色质相互作用及组织特异性效应的预测能力,彻底变革个性化医疗体系,并阐明特定基因突变的致病机理。
内贝尔教授强调语言学习模型的革命性潜力:"这些模型正被用于解码生命语言——我们的遗传密码。我们正探索其如何提升预测人类基因突变效应的能力,这需要强大算力支持。亚马逊研究奖将助力我们开发更快速、更强大的解决方案。在人类健康危机面前,每一纳秒的计算时间都弥足珍贵。"
拉赫曼博士补充道:"本项目着力解决语言学习模型的资源消耗问题。我们通过模型剪枝与架构创新,在维持精度的同时缩减模型体积和能耗。通过平衡科研雄心与环境责任,我们正推动精准医学早日成为现实。"
博士研究员梅格指出:"深度学习与语言学习模型已彻底革新科技赋能科学发现的方式。作为计算机科学家,我们必须确保科研贡献不被环境代价所抵消——例如海量水电消耗。最新研究表明,仅需微调模型架构即可大幅降低资源使用量而不损精度。我们的研究正是破解这一关键难题的重要一步。"
【全文结束】


