位于细胞错误部分的蛋白质可能会导致多种疾病,如阿尔茨海默病、囊性纤维化和癌症。但是,单个人类细胞中大约有70,000种不同的蛋白质和蛋白质变体,科学家们通常一次只能测试少数几种蛋白质,因此手动识别蛋白质的位置非常耗时且成本高昂。
新一代的计算技术试图通过使用机器学习模型来简化这一过程,这些模型通常利用包含数千种蛋白质及其位置的数据集,这些数据是在多个细胞系中测量的。其中最大的数据集之一是人类蛋白质图谱(Human Protein Atlas),它记录了超过40个细胞系中超过13,000种蛋白质的亚细胞行为。然而,尽管这个数据集规模庞大,但人类蛋白质图谱仅探索了数据库中所有可能的蛋白质和细胞系配对的大约0.25%。
现在,来自麻省理工学院、哈佛大学和布罗德研究所的研究人员开发了一种新的计算方法,可以高效地探索剩余的未知领域。他们的方法可以预测任何蛋白质在任何人类细胞系中的位置,即使这些蛋白质和细胞从未被测试过。
他们的技术比许多基于人工智能的方法更进一步,可以在单细胞水平上定位蛋白质,而不是对特定类型的所有细胞进行平均估计。例如,这种单细胞定位可以确定治疗后特定癌细胞中蛋白质的位置。
研究人员结合了蛋白质语言模型和一种特殊的计算机视觉模型,以捕捉有关蛋白质和细胞的丰富细节。最终,用户会收到一张细胞图像,其中高亮部分表示模型预测的蛋白质位置。由于蛋白质的定位表明其功能状态,这项技术可以帮助研究人员和临床医生更有效地诊断疾病或确定药物靶点,同时也能使生物学家更好地理解复杂的生物过程与蛋白质定位之间的关系。
“你可以在计算机上进行这些蛋白质定位实验,而无需接触实验室设备,希望这能为你节省几个月的时间。虽然仍需要验证预测结果,但这项技术可以作为实验前的初步筛选。”麻省理工学院计算与系统生物学项目的研究生、该研究论文的共同主要作者Yitong Tseo说。
Tseo与共同主要作者Xinyi Zhang(电气工程与计算机科学系及布罗德研究所Eric和Wendy Schmidt中心的研究生)、布罗德研究所的Yunhao Bai以及资深作者Fei Chen(哈佛大学助理教授及布罗德研究所成员)和Caroline Uhler(麻省理工学院电气工程与计算机科学系Andrew和Erna Viterbi教授,也是IDSS和LIDS的成员)共同完成了这项研究。该研究成果发表在《自然方法》杂志上。
合作模型
许多现有的蛋白质预测模型只能根据训练数据中的蛋白质和细胞数据进行预测,或者无法在单细胞内准确定位蛋白质。
为了克服这些限制,研究人员创建了一种两部分方法,用于预测未见过的蛋白质的亚细胞位置,称为PUPS。
第一部分利用蛋白质序列模型来捕捉蛋白质的定位决定特性及其基于氨基酸链形成的三维结构。
第二部分结合了一个图像修复模型,该模型旨在填补图像中的缺失部分。这个计算机视觉模型查看三个染色细胞图像,以收集有关该细胞状态的信息,例如其类型、个体特征以及是否处于应激状态。
PUPS将每个模型创建的表示结合起来,预测单细胞内蛋白质的位置,并使用图像解码器输出一个高亮图像,显示预测的位置。
“同一细胞系中的不同细胞表现出不同的特征,我们的模型能够理解这种细微差别。”Tseo说。
用户输入形成蛋白质的氨基酸序列和三张细胞染色图像(一张为细胞核,一张为微管,一张为内质网)。然后PUPS完成其余工作。
更深层次的理解
研究人员在训练过程中采用了一些技巧,教PUPS如何将每个模型的信息结合起来,以便即使它以前没有见过这种蛋白质,也能对其位置做出有根据的猜测。
例如,他们在训练过程中给模型分配了一个次要任务:明确命名定位区室,如细胞核。这个次要任务与主要的图像修复任务一起进行,帮助模型更有效地学习。
一个恰当的类比是一位老师要求学生不仅要写下花的各个部分名称,还要画出它们。这个额外步骤被发现有助于模型提高对可能的细胞区室的总体理解。
此外,由于PUPS同时在蛋白质和细胞系上进行训练,它能够更深入地理解蛋白质在细胞图像中的定位趋势。
PUPS甚至能够自行理解蛋白质序列的不同部分如何分别贡献于其整体定位。
“大多数其他方法通常需要你先有一个蛋白质的染色图像,这样你在训练数据中已经见过它。我们的方法独特之处在于它可以同时泛化到未见过的蛋白质和细胞系。”Zhang说。
由于PUPS可以泛化到未见过的蛋白质,它可以捕捉到人类蛋白质图谱中未包括的独特蛋白质突变所驱动的定位变化。
研究人员通过实验室实验验证了PUPS能够在未见过的细胞系中预测新蛋白质的亚细胞位置,并进行了比较。此外,与基线AI方法相比,PUPS在他们测试的蛋白质中平均预测误差更小。
未来,研究人员希望改进PUPS,使其能够理解蛋白质-蛋白质相互作用,并对细胞内的多个蛋白质进行定位预测。从长远来看,他们希望使PUPS能够在活体人类组织中进行预测,而不仅仅是培养的细胞。
这项研究由布罗德研究所Eric和Wendy Schmidt中心、美国国立卫生研究院、美国国家科学基金会、Burroughs Welcome基金、Searle学者基金会、哈佛干细胞研究所、Merkin研究所、海军研究办公室和能源部资助。
(全文结束)


