2025年10月24日
计算生物学 药物研发 新闻
原始报道源自美国伊利诺伊大学厄巴纳-香槟分校(IL, USA)。
一种新型大语言模型可预测拉索肽的特性——这种细菌产生的天然产物具有治疗潜力。
在寻找癌症和传染病新疗法的过程中,拉索肽成为重要研究对象。其结状结构赋予这些分子高稳定性和多样化生物活性,为新疗法开发提供了广阔前景。为充分释放其临床潜力,由美国卡尔·R·沃斯基因组生物学研究所(IL, USA)成员领导的跨机构团队开发出LassoESM——一种专门预测拉索肽特性的新型大语言模型。
拉索肽是细菌产生的天然产物。细菌通过核糖体构建氨基酸链,再由生物合成酶将其折叠成独特的滑结状结构。此过程可生成数千种不同拉索肽,其中许多已证实具有抗菌、抗病毒和抗癌特性。
“拉索肽在药物研发中蕴含巨大机遇,从靶向受体到开发稳定口服疗法均有应用空间,”美国范德堡化学生物学研究所(TN, USA)所长兼研究共同负责人道格·米切尔表示,“通过构建针对这些分子的专用语言模型,我们创建了高效解锁这些可能性的工具。”
机器学习模型已成为研究人员的关键工具,尤其在识别大型数据集模式方面。这使科学家能够发现新关联,同时节省数月时间和精力。蛋白质预测领域尤其受益于该技术,有助于揭示复杂蛋白质相互作用的新见解并加速新疗法发现。但AlphaFold等常用蛋白质预测AI平台在处理拉索肽时存在局限。
“由于拉索肽结构独特,现有AI程序在结构预测方面均无法有效运作,”项目共同负责人、美国伊利诺伊大学厄巴纳-香槟分校化学与生物分子工程教授兼詹姆斯·W·韦斯特沃特学者迪瓦卡尔·舒克拉解释道。
与驱动AI聊天机器人的大语言模型类似,蛋白质语言模型经过训练以学习和应用蛋白质“语言”:其氨基酸序列、三维结构及与周围环境的相互作用。但缺乏拉索肽专用训练数据导致这些算法对这类分子缺乏特异性。
“实验标记数据稀缺及酶-肽底物相互作用的复杂性,使拉索肽特性预测面临挑战,”近期在舒克拉研究团队获得博士学位的米雪南评论道,“我们开发的LassoESM是一种定制化蛋白质语言模型,可捕捉通用模型常忽略的肽特异性特征。”
米切尔团队首先运用生物信息学方法,筛选出不同微生物产生的数千种拉索肽序列。为提升数据质量,团队还人工验证了所有新发现的拉索肽序列。
“我们通过掩码语言建模学习这些拉索肽的语言——即隐藏肽的部分结构后预测剩余部分,”舒克拉解释道,“掌握自然界拉索结构的形成规律后,即可基于这些语言模型参数训练高效的特性预测模型。”
通过整合舒克拉团队的机器学习知识与米切尔团队收集的实验数据,研究团队将LassoESM应用于多项预测任务。重点方向之一是识别兼容的拉索肽与拉索环化酶配对,以拓展这些分子的临床潜力。拉索环化酶负责拉索肽生物合成中的结状结构形成步骤。如同不同锁需要专用钥匙,不同肽链需要特定拉索环化酶才能形成特征性绳结。
“我们构建的模型仅需肽的氨基酸序列,即可预测哪种拉索环化酶能形成拉索肽。若能理解底物范围或改造环化酶,理论上可将任何肽转化为拉索结构,”舒克拉表示。LassoESM的缺失使这些酶-底物相互作用难以预测,突显了该人工智能工具的价值。
米雪南总结道:“我们证明LassoESM能在有限训练数据下准确预测多种拉索肽特性。此项工作提供了强大的AI驱动工具,可加速功能性拉索肽在生物医药和工业应用中的理性设计。”
研究团队计划扩展模型功能,开发针对其他肽类天然产物的定制化语言模型,并改造拉索肽以靶向特定蛋白质。
【全文结束】


