可解释的人工智能破解粘性蛋白质的秘密语言'Explainable' AI cracks secret language of sticky proteins

环球医讯 / AI与医疗健康来源:phys.org西班牙 - 英语2025-05-01 02:00:00 - 阅读时长5分钟 - 2267字
研究人员开发了一种名为CANYA的可解释人工智能工具,该工具能够识别并解释驱动蛋白质聚集的化学模式。通过使用超过10万个随机蛋白质片段的数据集,CANYA揭示了已知和新的蛋白质聚集规则,有助于理解疾病机制并改进生物技术中的蛋白质工程。
健康蛋白质聚集神经退行性疾病人工智能CANYA制药淀粉样蛋白聚集蛋白质折叠氨基酸基序疾病研究
可解释的人工智能破解粘性蛋白质的秘密语言

一种人工智能工具在翻译蛋白质用于决定其是否形成类似阿尔茨海默病和其他五十多种人类疾病中所见的粘性团块的语言方面取得了进展。与典型的“黑盒”AI模型不同,新工具CANYA被设计为能够解释其决策,揭示出驱动或防止有害蛋白质折叠的具体化学模式。

这项发现发表在《科学进展》杂志上,得益于迄今为止创建的最大规模的蛋白质聚集数据集。该研究提供了关于粘性蛋白质分子机制的新见解,这些蛋白质与影响全球约5亿人的疾病有关。

蛋白质聚集,即淀粉样蛋白聚集,是一种破坏正常细胞功能的健康危害。当蛋白质中的某些区域相互粘连时,蛋白质会生长成密集的纤维状物质,产生病理后果。

虽然该研究对加速神经退行性疾病的研究有一定意义,但其更直接的影响将在生物技术领域。许多药物是蛋白质,它们常常因不必要的聚集而受到阻碍。

“蛋白质聚集是制药公司的一大难题,”该研究的共同通讯作者、加泰罗尼亚生物工程研究所(IBEC)的研究组组长贝内德塔·博洛涅西博士说。“如果治疗性蛋白质开始聚集,生产批次可能会失败,造成时间和金钱的损失。CANYA可以帮助指导工程化抗体和酶的工作,使它们不太可能粘在一起,从而减少过程中的昂贵挫折。”

蛋白质团块的形成使用了一种尚未完全理解的语言。蛋白质由二十种不同的氨基酸组成。与构成DNA语言的A、C、G、T字母不同,蛋白质的语言有二十个不同的字母,这些字母的不同组合形成了“单词”或“基序”。

长期以来,研究人员一直在试图破译哪些基序组合会导致聚集,哪些组合能使蛋白质无误地折叠。将氨基酸视为神秘语言字母的人工智能工具可以帮助识别导致聚集的确切单词或基序,但历史上用于训练模型的蛋白质聚集数据的质量和数量一直很少,或者仅限于非常小的蛋白质片段。

该研究通过大规模实验解决了这一挑战。研究人员从头开始创建了超过10万个完全随机的蛋白质片段,每个片段由20个氨基酸组成。每个合成片段的聚集能力在活酵母细胞中进行了测试。如果某个特定片段触发了聚集,酵母细胞将以一种可以被研究人员测量的方式生长,以确定因果关系。

大约每五个蛋白质片段中有一个(21,936/100,000)导致了聚集,其余的则没有。虽然以前的研究可能只跟踪了少数序列,但新的数据集捕捉到了更大范围的可能导致淀粉样蛋白聚集的不同蛋白质变体。

“我们创建了真正的随机蛋白质片段,包括许多自然界中不存在的版本。进化只探索了所有可能蛋白质序列的一小部分,而我们的方法帮助我们窥视一个更大的可能性星系,提供了大量数据点来帮助理解更普遍的聚集行为规律,”该研究的第一作者、基因组调控中心(CRG)的博士后研究员迈克·汤普森解释说。

实验生成的大量数据被用来训练CANYA。研究人员决定根据“可解释的人工智能”原则创建它,使其决策过程对人类透明且易于理解。这意味着牺牲了一点预测能力,这通常是“黑盒”AI更高的。尽管如此,CANYA的准确性比现有模型高出约15%。

具体来说,CANYA是一种卷积-注意力模型,这是一种结合了两种不同AI领域的混合工具。卷积模型,如图像识别中使用的模型,扫描照片以找到像耳朵或鼻子这样的特征来识别人脸,而在这种情况下,CANYA扫描蛋白质链以找到有意义的特征,如基序或“单词”。

注意力AI模型用于语言翻译工具,以识别句子中的关键短语,然后决定最佳翻译。研究人员将这一技术纳入CANYA,以帮助其找出在整个蛋白质中最重要的基序。

这两种方法共同帮助CANYA近距离观察局部基序,同时也能看到它们的整体重要性。研究人员可以利用这些信息不仅预测蛋白质链中的哪些基序促进聚集、阻止聚集或介于两者之间,还能理解原因。

例如,CANYA显示,小口袋的疏水氨基酸更有可能引发聚集,而某些基序如果位于蛋白质序列的开头而不是结尾,对聚集的影响更大。这些观察结果与研究人员在已知淀粉样纤维下显微镜下的发现一致。

但CANYA也发现了驱动蛋白质聚集的新规则。例如,某些蛋白质构建块,所谓的带电氨基酸,通常被认为可以防止聚集。但在其他特定构建块的背景下,它们实际上可以促进聚集。

目前,CANYA主要以“分类器”的形式解释蛋白质聚集,即以是或否的方式。研究人员接下来希望改进系统,使其能够预测并比较聚集速度,而不仅仅是聚集的可能性。

这可以帮助预测哪些蛋白质变体快速形成团块,哪些变体较慢形成团块,在神经退行性疾病中,淀粉样蛋白形成的时机与事实本身一样重要。

“有1,024千万亿种方法可以创建一个20个氨基酸长的蛋白质片段。到目前为止,我们已经用10万个片段训练了一个AI。我们希望通过制作更多和更大的片段来改进它。这只是第一步,但我们的工作表明,破译蛋白质聚集的语言是可能的。这对理解人类疾病非常重要,也有助于指导合成生物学的努力,”博洛涅西博士总结道。

“这个项目是一个很好的例子,展示了大规模数据生成与人工智能相结合如何加速研究。这也是一种非常具有成本效益的方法来生成数据,”ICREA研究教授、基因组调控中心(CRG)和惠康桑格研究所的研究组组长本·莱纳说。

“通过DNA合成和测序,我们可以在一个试管中进行数十万次实验,生成训练AI模型所需的数据。我们正在将这种方法应用于生物学中的许多难题。目标是使生物学变得可预测和可编程,”他补充道。

这项研究是由基因组调控中心(CRG)的ICREA研究教授本·莱纳实验室和加泰罗尼亚生物工程研究所(IBEC)的贝内德塔·博洛涅西实验室联合合作完成的。冷泉港实验室(CSHL)和惠康桑格研究所的研究人员也参与了这项研究。


(全文结束)

大健康
大健康