麻省理工学院(MIT)的新AI模型可以更准确地预测抗体结构,帮助疾病治疗并简化药物发现过程。通过这一模型,研究人员可能能够发现能够针对广泛传染性疾病的抗体药物。
为了克服传统方法在抗体预测上的局限性,MIT的研究人员开发了一种计算技术,使大型语言模型能够更准确地预测抗体结构。这项工作可以使得研究人员筛选数百万种可能的抗体,以识别那些可以用于治疗SARS-CoV-2和其他传染病的抗体。
“我们的方法允许我们进行规模化处理,而其他方法无法做到这一点,以至于我们可以真正找到几根‘针’,”麻省理工学院计算机科学与人工智能实验室(CSAIL)计算与生物学小组负责人、数学教授Bonnie Berger说。“如果我们能帮助制药公司避免带着错误的候选物进入临床试验,这将节省大量资金。”
该技术专注于建模抗体的高变区,也具有分析个人抗体库的潜力。这对于研究对HIV等疾病具有超级反应者的免疫反应非常有用,可以帮助解释为什么他们的抗体能够有效抵御病毒。
蛋白质由长链氨基酸组成,这些氨基酸可以折叠成无数种可能的结构。近年来,使用如AlphaFold等人工智能程序预测这些结构变得更容易。许多这些程序,如ESMFold和OmegaFold,基于大型语言模型,最初是为了分析大量文本而开发的,使它们能够学习预测序列中的下一个词。同样的方法也可以应用于蛋白质序列——通过学习哪些氨基酸模式最有可能形成特定的蛋白质结构。
然而,这种方法并不总是适用于抗体,尤其是抗体中称为高变区的部分。抗体通常呈Y形结构,这些高变区位于Y的顶端,负责检测并结合外来蛋白(抗原)。Y的底部部分提供结构支持,并帮助抗体与免疫细胞互动。
高变区长度不一,但通常含有不到40个氨基酸。据估计,人体免疫系统可以通过改变这些氨基酸的序列产生多达10亿亿种不同的抗体,以确保身体能够应对各种潜在的抗原。这些序列不像其他蛋白质序列那样受到进化约束,因此大型语言模型难以准确预测其结构。
“语言模型能够很好地预测蛋白质结构的原因之一是进化对这些序列施加了某些约束,模型可以解码这些约束的意义,”Rohit Singh说。“这类似于通过查看句子中单词的上下文来学习语法规则,从而理解其含义。”
为了建模这些高变区,研究人员创建了两个模块,基于现有的蛋白质语言模型进行了改进。其中一个模块训练于来自约3,000种抗体结构的高变序列,使其能够学习哪些序列倾向于生成相似的结构。另一个模块训练于约3,700种抗体序列的数据,这些数据关联了它们与三种不同抗原的结合强度。
由此产生的计算模型,称为AbMap,可以根据氨基酸序列预测抗体结构和结合强度。为了展示该模型的实用性,研究人员用它来预测能够强烈中和SARS-CoV-2病毒刺突蛋白的抗体结构。
研究人员从一组已预测会结合该目标的抗体开始,然后通过改变高变区生成了数百万种变异体。他们的模型能够比传统的基于大型语言模型的蛋白质结构模型更准确地识别出最成功的抗体结构。
随后,研究人员将抗体按结构相似性分组,并选择了每个群组中的抗体进行实验测试,与Sanofi的研究人员合作。实验结果显示,82%的抗体比原始抗体具有更好的结合强度。
早期确定多种良好候选物可以帮助制药公司在开发过程中避免浪费大量资金测试最终失败的候选物。
“他们不想把所有鸡蛋放在一个篮子里,”Singh说。“他们不想说,我将只选择一种抗体并带入临床前试验,结果却发现它是有毒的。他们宁愿有一系列好的可能性,并推动所有这些可能性,以便在其中一种出现问题时还有其他选择。”
使用这种技术,研究人员还可以尝试解答一些长期存在的问题,例如为什么不同的人对感染有不同的反应。例如,为什么有些人会患上更严重的Covid,为什么有些人暴露于HIV却从未被感染?
科学家们一直试图通过单细胞RNA测序个体的免疫细胞并进行比较来回答这些问题——这一过程被称为抗体库分析。先前的研究表明,两个人的抗体库重叠度可能低至10%。然而,测序并不能像结构信息那样全面反映抗体性能,因为具有不同序列的两种抗体可能具有相似的结构和功能。
新模型可以通过快速生成个体体内所有抗体的结构来解决这个问题。在这项研究中,研究人员发现,当考虑结构时,个体之间的重叠度远高于仅基于序列比较的10%。他们现在计划进一步研究这些结构如何影响机体对特定病原体的整体免疫反应。
“这就是语言模型的美妙之处,因为它具有基于序列分析的可扩展性,但接近基于结构分析的准确性,”Singh说。
参考文献:“学习抗体高变性的语言”(Rohit Singh, Chiho Im, Yu Qiu, Brian Mackness, Abhinav Gupta, Taylor Joren, Samuel Sledzieski, Lena Erlach, Maria Wendt, Yves Fomekong Nanfack, Bryan Bryson 和 Bonnie Berger,2024年12月30日,《美国国家科学院院刊》)。DOI: 10.1073/pnas.2418918121
该研究由Sanofi和Abdul Latif Jameel健康机器学习诊所资助。
(全文结束)


