人类基因组可能编码数千种以前被忽视的微小蛋白质。研究人员正在寻找这些蛋白质的功能。
2009年,乔纳森·韦斯曼(Jonathan Weissman)正在寻找一种新的方法来窥探细胞内部发生的事情。特别是这位分子细胞生物学家想知道在任何给定时刻细胞会产生哪些蛋白质。因此,他的实验室开发了一种直接测量核糖体(细胞的蛋白质工厂)输出的方法。
该方法由当时在加州大学伯克利分校的博士后研究员尼古拉斯·英戈利亚(Nicholas Ingolia)共同开发,涉及收集所有细胞的核糖体并对其结合的信使RNA进行测序。研究人员希望这种称为核糖体谱型分析(ribosome profiling)的技术能提供细胞内所有蛋白质及其相对数量的准确统计。
但当韦斯曼和其他人开始尝试这种方法时,他们发现了一个巨大的惊喜。核糖体不仅忙于制造已知基因编码的蛋白质,还似乎在制造数以千计的“暗蛋白质”,这些蛋白质映射到基因组中被认为不产生蛋白质的部分。韦斯曼表示:“那是我们的‘啊哈!’时刻。”很快,他和他的实验室以及其他实验室在几乎所有他们检查的生物体中发现了意外的翻译事件。
15年后,科学家们仍然对这些蛋白质的作用感到困惑。
暗蛋白质往往很短——通常只有几十个氨基酸或更少。许多是陌生的——它们在其他生物体的基因组中没有近亲。研究表明,其中一些可能在细胞中有重要作用,并可能影响人类健康。它们在某些癌症中似乎很丰富,几家公司希望开发针对暗蛋白质的治疗方法。但对于这些神秘实体中的许多,证据表明它们在细胞中是否起重要作用甚至是否存活很长时间都存在争议。
舍布鲁克大学(University of Sherbrooke)的蛋白质组学研究员玛丽·布吕内(Marie Brunet)表示,问题是科学家不知道自己可能错过了什么。“如果你的数据库中缺少一种蛋白质,你就不会去寻找它。”
基因计数难题
布吕内参与了一项全球努力,旨在记录人类基因组编码的所有暗蛋白质(见“探索暗蛋白质组”)。目标是引起研究人员对这一暗物质的关注,以便他们可以逐个分子地研究这些蛋白质的作用。
荷兰乌得勒支公主 Máxima 儿童肿瘤中心的系统生物学家塞巴斯蒂安·范·希施(Sebastiaan van Heesch)也是该项目的一部分,他表示前景令人兴奋:“那里肯定有新的生物学现象。”
在2000年代初首次发布人类基因组之前,研究人员急于检查新出现的序列数据,试图估计蛋白质编码基因的数量。通常,他们会寻找所谓的开放阅读框(ORF),即具有特定三字母序列(或密码子)的代码片段,这些密码子可以包含制造蛋白质的指令。基因组学家还会寻找进一步的线索,例如该序列在其他生物体中是否保守以及长度是否合理,这些都是该蛋白质在细胞中可能具有功能的迹象。
许多不符合这些标准的ORF被忽略或遗漏,因为生物学家不断改进他们的估算。维护预测基因列表的组织,如GENCODE项目,目前列出了接近20,000个蛋白质编码基因。其中约90%通过其他努力得到了确认,产生了相应的蛋白质(单个基因可以通过包含或省略称为外显子的代码片段来编码多个不同的蛋白质)。GENCODE和其他项目会根据新数据定期调整其列表。
但密歇根大学医学院的癌症生物学家约翰·普伦斯纳(John Prensner)表示,这种统计是不完整的。早在2001年就认为研究人员可以列出所有蛋白质编码基因的想法是一种误解。“人类基因组计划的领导者一直知道他们只是刚刚开始一场对话,”普伦斯纳说。
直接测量核糖体输出的能力引发了对被忽视的ORF及其可能编码功能性蛋白质的兴趣。在2022年的一篇《自然生物技术》(Nature Biotechnology)通讯中,由普伦斯纳、范·希施等人领导的团队列出了7,000多个“非规范”的ORF,这些ORF通常不符合被认为是蛋白质编码基因的标准,因此被排除在数据库之外。(范·希施表示,这是一个下限;其他研究已经确定了数万个潜在的暗蛋白质。)
大多数非规范ORF位于经典蛋白质编码基因附近或重叠区域。大约三分之一位于所谓的长非编码RNA序列中,这些序列原本被认为不编码蛋白质,而是具有调控作用。
但仅仅因为一个ORF被翻译成蛋白质并不意味着这些蛋白质是稳定的或在细胞中起重要作用。普伦斯纳等人表示,一些非规范ORF的翻译可能是细胞控制附近基因活性的一种方式,例如通过用快速降解的产品堵塞核糖体机制。这种控制发生在某些上游ORF中,它们出现在蛋白质编码序列之前。
在一项后续预印本研究中,普伦斯纳、范·希施和一个扩展的基因组学和蛋白质组学专家联盟筛选了数百个蛋白质组学数据集(包括数十亿个数据点)以及使用质谱等方法鉴定细胞蛋白质含量的研究结果。研究人员找到了超过1,700个他们在2022年确定的非规范ORF对应的蛋白质片段。对于其中的15个,研究人员认为证据足够充分,可以将其添加到官方的蛋白质编码基因列表中。
但对于大多数非规范ORF,明确的证据表明它们可以产生蛋白质是缺乏的。挑战之一是潜在蛋白质的小尺寸——研究人员称它们为微蛋白,因为它们通常比100个氨基酸短得多(平均人类蛋白质含有几百个氨基酸,许多更长)。它们的短长度使得很难找到匹配的片段——这些片段是在实验中将蛋白质分解并根据质量识别其碎片时产生的。范·希施表示,细胞样本会过度代表较长蛋白质的片段,尤其是如果微蛋白较少。
当科学家使用人工智能工具AlphaFold预测暗蛋白质的结构时,这些分子通常看起来不像折叠良好的真正蛋白质。但普伦斯纳表示,“也有一些非常像经典蛋白质的例子,只是被忽略了。” GENCODE和其他管理数据库的组织已经开始将这些被忽视的蛋白质添加到其列表中。
欧洲生物信息学研究所(European Bioinformatics Institute)的乔纳森·马奇(Jonathan Mudge)是GENCODE项目的合著者,他表示,通过核糖体谱型分析确定的约50个序列已被列入其人类蛋白质编码基因列表。
但他补充道,他们行动非常谨慎。不仅是实验室生物学家依赖GENCODE等项目来解释实验,临床医生也依赖这些数据库,添加大量可疑的蛋白质编码基因可能会使识别患者基因组中有害变异的努力复杂化。“我们不是怀疑,我们只是谨慎,”他说。
清晰编辑
大约在同一时间,研究人员开始关注基因组编码暗蛋白质的潜力,另一项突破使得系统研究这些蛋白质在细胞中的作用成为可能:CRISPR–Cas9基因编辑。“突然间我们可以外科手术般地移除这些非规范蛋白质的编码序列,并问它们对细胞功能是否重要,”韦斯曼说。
在2020年的《科学》(Science)论文中,韦斯曼的团队展示了这一点。研究人员使用CRISPR基因编辑中断了数千个非规范ORF,防止它们在人类诱导多能干细胞和癌细胞系中被翻译成蛋白质。在数百个实例中,CRISPR编辑导致了细胞生长缺陷。“许多微蛋白对细胞真的很重要,”韦斯曼说。
通过进一步实验,他们确定了原因。在某些情况下,非规范ORF编码的蛋白质与其同一条mRNA链上编码的蛋白质相互作用。这类似于细菌中共同调控的基因倾向于相邻排列在称为操纵子的单元中,韦斯曼说。他团队确定的功能性暗蛋白质在细胞中承担了各种角色:一个似乎参与了细胞周期,另一个与线粒体生理有关。
普伦斯纳是一名儿科神经肿瘤学家,他正在研究非规范ORF在所有人类基因组中是否存在失调,从而可能导致癌症患者的不同治疗结果。“我们正在问癌症为何会产生这些东西的核心问题,”他说。
在类似的实验中,普伦斯纳领导的团队发现,在他们用CRISPR失活的500多个非规范ORF中,约10%在各种人类癌细胞中引起了生长缺陷。普伦斯纳和他的同事发现了一种在乳腺癌细胞系中表达水平升高并似乎驱动其生长的暗蛋白质。
去年,普伦斯纳、范·希施及其同事确定了几种有助于髓母细胞瘤(一种致命的儿童脑癌)的暗蛋白质。在一个例子中,研究人员表明,一个独立于相邻ORF编码的经典蛋白质的暗蛋白质驱动了携带过度活跃的癌症基因MYC的特别侵袭性的髓母细胞瘤亚型的生长。
(全文结束)


