由巴塞罗那科学技术研究所基因组调控中心和维康桑格研究所领导的研究人员开发了一种人工智能工具,该工具在翻译蛋白质用于决定其是否形成类似阿尔茨海默病和其他人类疾病中出现的粘性团块的语言方面取得了进展。与典型的“黑箱”AI模型不同,这种名为CANYA(卷积注意力网络用于淀粉样聚集)的新工具被设计为能够解释其决策,揭示驱动或阻止有害蛋白质折叠的具体化学模式。
该团队在《科学进展》杂志上报告了这一成果,这是迄今为止创建的最大规模的蛋白质聚集数据集。研究人员通过实验量化了超过10万个蛋白质序列的聚集情况,并使用这些数据来训练新的人工智能工具,以从序列中预测聚集。他们的结果提供了关于粘性蛋白质分子机制的新见解,这些蛋白质与全球影响约5亿人的疾病有关。
基因组调控中心(CRG)和维康桑格研究所的研究教授Ben Lehner表示:“这个项目是一个很好的例子,展示了大规模数据生成与人工智能结合可以加速研究。它也是一种非常具有成本效益的数据生成方法。”
Lehner和加泰罗尼亚生物工程研究所(IBEC)的研究组长Benedetta Bolognesi博士是该团队报告的共同通讯作者。报告题为“大规模实验量化允许可解释的深度学习蛋白质聚集”,结论是“更广泛地说,我们的结果提供了一个非常庞大且校准良好的数据集,用于训练和评估CANYA以外的模型,并证明了对随机蛋白质序列空间进行大规模实验分析的实用性。”
蛋白质聚集或淀粉样聚集是一种健康危害,会破坏正常的细胞功能。当蛋白质中的某些片段相互粘附时,蛋白质会生长成密集的纤维状团块,产生病理后果。“特定不溶性蛋白质聚集体以淀粉样纤维的形式表征了50多种临床状况,影响了超过5亿人,”作者写道。“其中包括常见的神经退行性疾病和最常见的痴呆症形式。”
虽然这项研究对加速神经退行性疾病的研究有一些意义,但其更直接的影响将是在生物技术领域。许多药物也是蛋白质,也可能经常受到不需要的聚集的影响。“蛋白质聚集也是生物技术中的一个主要问题,例如,在酶、抗体和其他蛋白质治疗剂的生产中,”研究团队继续写道。
“蛋白质聚集是制药公司的一大头痛,”Bolognesi指出。“如果一种治疗性蛋白质开始聚集,生产批次可能会失败,造成时间和金钱的损失。”
蛋白质团块的形成使用了一种尚未完全理解的语言。蛋白质由20种不同的氨基酸组成,不同的组合形成“单词”或“基序”。长期以来,研究人员一直试图破译哪些组合会导致聚集,哪些组合能使蛋白质正确折叠。将氨基酸视为语言字母的人工智能工具可以帮助识别精确的单词或基序,但所需的数据质量和数量一直很少或仅限于非常小的蛋白质片段。
为了应对这一挑战,新报告的研究进行了大规模实验。研究人员从头开始创建了超过10万个完全随机的蛋白质片段,每个片段长20个氨基酸。每个合成片段的聚集能力在活酵母细胞中进行了测试。如果某个特定片段触发了聚集,酵母细胞将以某种方式生长,研究人员可以测量这种生长情况以确定因果关系。
研究小组发现,大约五分之一的蛋白质片段(21,936/100,000)导致了聚集,而其余的则没有。虽然以前的研究可能只跟踪了少数序列,但新的数据集捕捉到了更大范围的不同蛋白质变异体,这些变异体可以导致淀粉样聚集。
“我们创造了真正随机的蛋白质片段,包括许多自然界中不存在的版本,”第一作者Mike Thompson博士说,他是基因组调控中心(CRG)的博士后研究员。“进化只探索了所有可能蛋白质序列的一小部分,而我们的方法帮助我们观察到更大的可能性宇宙,提供了大量数据点来帮助理解更普遍的聚集行为规律。”
从实验中生成的大量数据被用来训练CANYA,研究人员使用了“可解释的人工智能”原则来创建它,使其决策过程对人类透明且易于理解。这意味着牺牲了一些预测能力,这通常在“黑箱”AI中更高。尽管如此,CANYA的准确性比现有模型高出约15%。“使用随机序列使我们能够测试与已知淀粉样蛋白截然不同的序列,并为我们自己的数据集和现有数据集提供了一个有原则的现有淀粉样蛋白预测器的评估,为社区提供了一个指导方针,”研究人员写道。“在另外7,000个独立序列上的评估确认了CANYA在从序列预测聚集方面的性能。”
具体来说,CANYA是一个卷积-注意力模型,这是一种结合了两种不同AI领域的混合工具。卷积模型,如图像识别中使用的模型,扫描照片以找到像耳朵或鼻子这样的特征来识别面部,而在这种情况下,CANYA扫描蛋白质链以找到有意义的特征,如基序或“单词”。
注意力AI模型用于语言翻译工具,以识别句子中的关键短语,然后再决定最佳翻译。研究人员引入了这种方法,以帮助CANYA找出在整个蛋白质中最重要的基序。
这两种方法一起帮助CANYA近距离看到局部基序,同时也发现它们在大局中的重要性。研究人员可以利用这些信息不仅预测蛋白质链中哪些基序会促进聚集、阻止聚集或介于两者之间,还能理解原因。“CANYA的性能及其在评估任务中的一致性表明,尽管只用随机合成肽进行训练,CANYA确实学到了序列-聚集景观的准确近似值,”他们评论道。
例如,CANYA显示,小口袋的疏水氨基酸更容易引发聚集,而某些基序如果位于蛋白质序列的开头而不是末尾,会对聚集产生更大的影响。这些观察结果与研究人员在已知淀粉样纤维显微镜下看到的先前发现一致。
但CANYA也发现了新的规则驱动蛋白质聚集。例如,某些带电荷的氨基酸通常被认为可以防止聚集。但事实证明,在其他特定构建块的背景下,它们实际上可以促进聚集。
在其当前形式中,CANYA主要以是或否的方式解释蛋白质聚集,即它作为一个所谓的“分类器”。研究人员接下来希望改进系统,使其能够预测并比较聚集速度,而不仅仅是聚集的可能性。这可以帮助预测哪些蛋白质变体快速聚集,哪些变体缓慢聚集,这对于神经退行性疾病至关重要,因为淀粉样形成的时间与发生的事实一样重要。
“有1,024千兆种方法可以创建一个20个氨基酸长的蛋白质片段,”Bolognesi说。“到目前为止,我们已经用10万个片段训练了一个人工智能。我们想通过制造更多更大的片段来改进它。这只是第一步,但我们的工作表明有可能破解蛋白质聚集的语言。这对于理解人类疾病非常重要,但也指导合成生物学的努力……CANYA可以帮助指导工程化抗体和酶的工作,使其不太可能粘在一起,减少昂贵的挫折。”
Lehner补充说:“通过DNA合成和测序,我们可以在一个试管中进行数十万次实验,生成训练AI模型所需的数据。这是我们正在应用于生物学中许多难题的方法。目标是使生物学变得可预测和可编程。”
(全文结束)


