配对蛋白质语言模型(PPLM)同时学习两个相互作用的蛋白质,能够预测相互作用、结合强度和相互作用界面。图片来源:新加坡国立大学
研究人员开发了一种新型人工智能(AI)模型,可以更准确地预测蛋白质如何相互作用——这一进展可能加速药物发现并加深对癌症等疾病的了解。
该研究由新加坡国立大学(NUS)新加坡癌症科学研究所(CSI Singapore)高级首席研究员张阳教授领导,并发表在《自然·通讯》上。研究介绍了一种配对蛋白质语言模型(PPLM),该模型同时学习两个相互作用的蛋白质,而不是孤立地分析它们。这标志着AI在生物学应用中的重大转变,能够更准确地预测支撑几乎所有细胞过程的蛋白质-蛋白质相互作用。
理解蛋白质相互作用的新方法
蛋白质-蛋白质相互作用本质上是关系性的,然而大多数当前的AI模型都是在单一蛋白质序列上训练的。这限制了它们充分捕捉蛋白质如何识别和相互结合的能力。
为解决这一问题,研究团队开发了PPLM,这是一种专门设计用于在训练期间学习蛋白质间关系的模型。通过联合编码配对的蛋白质序列,PPLM在一个统一框架内同时捕获单个蛋白质特征和依赖于配对伙伴的相互作用模式。该模型在超过300万个蛋白质对上进行了训练,使其能够大规模学习相互作用模式。
多项任务中的出色表现
在此基础上,团队开发了三种专用工具:用于预测蛋白质是否相互作用的PPLM-PPI、用于估计结合强度的PPLM-Affinity,以及用于识别相互作用界面的PPLM-Contact。在基准数据集上,该模型将相互作用预测准确率提高了约17%,并且在多个物种中表现一致提升。
值得注意的是,该模型在抗体-抗原相互作用等具有挑战性的场景中,表现优于基于序列和基于结构的方法。此外,该模型识别出的模式与蛋白质在现实生活中的相互作用方式相匹配,表明它能够捕捉蛋白质之间具有生物学意义的关系。
"这项工作突显了AI在转变生命科学中的日益重要作用。通过从单一蛋白质分析转向关注相互作用的建模,该研究为多蛋白质复合物预测、系统级生物学和AI引导的治疗设计的未来进展奠定了基础,"张教授解释道。张教授还在NUS杨潞龄医学院生物化学系和NUS计算学院计算机科学系任职。
可扩展性和转化影响
通过提高蛋白质相互作用建模的准确性和可扩展性,PPLM可以支持广泛的应用,包括蛋白质组规模的相互作用发现、药物靶点识别和治疗开发。
NUS团队目前正在通过整合结构和实验数据,并将其应用扩展到更复杂的生物系统(如宿主-病原体相互作用),进一步增强该模型。
出版详情
刘军等人,《用于蛋白质-蛋白质相互作用建模的配对序列语言模型》,《自然·通讯》(2026)。DOI: 10.1038/s41467-026-70457-5
期刊信息
《自然·通讯》
关键概念
宿主-病原体相互作用、生物分子与亚细胞过程、生物网络、人工智能、生物信息学
提供方:新加坡国立大学
【全文结束】

