格拉斯哥大学科学家调用原本用于宇宙研究的强大超级计算机,开发出新型机器学习模型,成功破译蛋白质的复杂语言。这项发表于《自然·通讯》的研究中,跨学科团队创建了名为PLM-Interact的大型语言模型(LLM),旨在深入理解蛋白质相互作用机制,并预测哪些基因突变会影响这些关键分子间的"对话"。
早期测试表明,这款蛋白语言模型(PLM)在理解及预测蛋白质相互作用方面性能超越竞品模型。研究证实PLM-Interact有望推动癌症和病毒感染等关键医学领域的突破性认知,团队正致力于通过此类AI模型揭示疾病成因的细节。
该模型还为病毒与宿主物种的相互作用提供新视角。未来或可用于预测病毒大流行潜力并识别新药物靶点。作为所有细胞和病毒的主要结构成分,蛋白质通过相互作用主导生物过程,而蛋白质互作(PPIs)的紊乱常与癌症、遗传病等疾病相关。在病毒感染过程中,病毒依赖人体细胞蛋白进行复制,因此解析蛋白互作对开发新疗法至关重要。然而传统实验方法耗时耗资,亟需加速研究进程。
PLM-Interact首先基于42.1万个已知人类蛋白对数据进行训练,英国DiRAC高性能超算设施提供算力支持。其中专为理论物理学家设计的Tursa超算系统——原本用于模拟宇宙运行机制——凭借高度优化的GPU集群,助力团队快速构建含6.5亿参数的模型。
论文共同通讯作者凯·袁博士表示:"令人振奋的是,原本用于探索从亚原子粒子到宇宙尺度自然规律的DiRAC设施,如今帮助我们开拓了蛋白质互作的'内宇宙'。计算机科学学院同事在语言建模方面提供支持,但模型训练需要海量算力。DiRAC的GPU资源及技术支援使这项工作高效完成。"
PLM-Interact在蛋白质互作预测准确率上比现有顶尖AI模型高出16%-28%,并成功预测RNA聚合与蛋白质转运等五种关键生物功能中的全部互作。值得注意的是,包括谷歌DeepMind的AlphaFold3在内的其他蛋白AI工具仅能预测其中一项。该模型还能精准识别基因突变对蛋白互作的影响,涵盖导致遗传病的有害突变及引发癌症的互作抑制。
研究团队另用2.2383万组互作数据训练模型,涉及5882种人类蛋白与996种病毒蛋白。PLM-Interact再次展现卓越性能,准确预测人病毒蛋白互作,证实其作为病毒预测工具的潜力。
论文另一位共同通讯作者、格拉斯哥大学病毒研究中心生物信息学主管戴维·罗伯逊教授指出:"新冠疫情期间对病毒-宿主互作的迫切研究需求,凸显了PLM-Interact的未来价值。快速准确解析病毒与人体蛋白的相互作用,将助力理解病毒 emergence(出现)及疾病风险,从而加速新疗法开发。这是论文第一作者刘丹博士的出色研究成果,我们正扩大团队以充分挖掘该模型在医疗等领域的应用潜力。"
这项题为《PLM-interact:扩展蛋白语言模型以预测蛋白质相互作用》的研究获得欧盟"地平线2020"计划、英国医学研究理事会及癌症研究机构资助。
【全文结束】


