谷歌DeepMind联合创始人兼首席执行官德米斯·哈萨比斯(Demis Hassabis)和该公司高级研究员约翰·詹珀(John Jumper)因在AlphaFold(一种预测蛋白质结构的人工智能模型)方面的工作而共同获得了2024年诺贝尔化学奖。自AlphaFold首次亮相以来的五年间,该人工智能模型已经彻底改变了生物化学家的工作方式。
尽管许多企业仍在寻找AI的"杀手级应用",但生物化学家已经找到了它。这个应用就是蛋白质折叠。本周标志着AlphaFold 2(由谷歌DeepMind创建的AI系统)问世五周年,该系统能够以高度准确性从DNA序列预测蛋白质结构。
在这五年中,AlphaFold 2及其后续AI模型已成为生物化学研究中几乎与显微镜、培养皿和移液管一样基础和普遍的工具。这些AI模型已经开始改变科学家寻找新药物的方式,有望实现更快、更成功的药物开发。它们还开始帮助科学家解决从海洋污染到培育更能适应气候变化的作物等各种问题。
"其影响真的超出了我们所有的预期,"领导谷歌DeepMind公司蛋白质结构预测团队的高级科学家约翰·詹珀告诉《财富》杂志。2024年,詹珀和谷歌DeepMind联合创始人兼首席执行官德米斯·哈萨比斯因创建AlphaFold 2的工作而共同获得了诺贝尔化学奖。
如今,学习如何使用AlphaFold进行蛋白质结构预测已成为全球许多研究生水平生物学学生的标准工具。"这已经成为分子生物学家培训的一部分,"詹珀说。
《财富》杂志在2020年的一篇专题报道中记录了谷歌DeepMind破解所谓的"蛋白质折叠问题"的历程。蛋白质具有复杂的物理形状,在AlphaFold出现之前,描述这些形状需要耗时且昂贵的实验室实验。
该公司最终通过使用Transformer解决了这一问题,这是一种与ChatGPT等流行聊天机器人相同的AI技术。但与在文本上训练Transformer以输出最可能的下一个单词不同,该AI模型是在包含蛋白质DNA序列和已知蛋白质结构的数据库上进行训练的,同时还包含了关于哪些DNA序列似乎一起进化的信息,因为这为蛋白质结构提供了线索。然后,该模型被要求预测蛋白质结构。
"有时我不得不掐自己一下,哦,它真的成功了。我们可能有很多很多种失败的方式,"领导DeepMind将AI应用于科学工作的研究副总裁普什梅特·科利(Pushmeet Kohli)说。
科利还表示,AlphaFold证明了AI不仅可以为科技公司带来大量利润,还可以为科学乃至最终为人类的福祉做出贡献。"AlphaFold真正确认了基本原理和愿景:如果我们正在开发这项技术,这种人工智能,人类可以用它做的最有意义的事情是什么?我认为科学是AI的完美用例。我不会说这是唯一的用例,但它绝对是迄今为止最具说服力的用例。"
从18万种蛋白质结构到2.4亿种
蛋白质是由氨基酸组成的长链,作为生命的引擎,控制着大多数生物过程。蛋白质的功能又取决于其形状。当细胞产生蛋白质时,氨基酸会自发折叠成缠绕扭曲的结构,有凹槽和突起,有时还有长长的尾部。
化学和物理定律决定了这种折叠。这就是为什么诺贝尔奖得主化学家克里斯蒂安·安芬森(Christian Anfinsen)在1972年提出,仅DNA就应该完全决定蛋白质最终采取的结构。这是一个非凡的假设。当时,还没有一个基因组被测序。但安芬森的理论催生了计算生物学的一个完整分支,其目标是使用复杂的数学而不是经验实验来模拟蛋白质。问题是,可能的蛋白质结构比宇宙中原子的数量还要多,因此即使使用高性能计算机建模也非常困难。
在AlphaFold 2之前,科学家唯一能够确信知道蛋白质结构的方法是通过少数几种昂贵且耗时的实验过程。因此,在AlphaFold 2之前,科学家仅成功确定了约18万种蛋白质的结构。其他基于计算机的预测蛋白质结构的方法只有约50%的准确性,这对生物化学家帮助不大,特别是因为他们无法提前知道预测何时可信。
得益于AlphaFold 2,现在已有超过2.4亿种蛋白质的结构预测。其中包括人体产生的每一种蛋白质,以及涉及关键人类疾病的蛋白质,如新冠、疟疾和查加斯病。
谷歌DeepMind免费向研究人员提供AlphaFold 2下载并在自己的计算机上运行。但为了使其预测更加易于获取,它还建立了一个基于互联网的服务器,研究人员可以上传蛋白质的DNA序列并获得结构预测。谷歌DeepMind还为几乎所有已知蛋白质创建了结构预测,并将这些预测存入位于英国剑桥外的欧洲分子生物学实验室的欧洲生物信息学研究所运行的数据库中。
截至目前,已有超过330万人使用过AlphaFold 2。原始的AlphaFold工作已在4万多篇学术论文中被直接引用,其中30%集中在各种疾病的研究上。一项研究发现,该AI模型直接或间接促成了约20万项研究出版物。根据谷歌DeepMind的数据,该工具还被提及在400多项成功的专利申请中。
詹珀告诉《财富》杂志,他最为欣慰的是科学家们能够使用AlphaFold找到"他们甚至不知道要寻找什么"的生命过程关键。例如,科学家最近使用AlphaFold帮助发现了一个先前未知的蛋白质复合物,该复合物对于允许精子使卵子受精至关重要。
在奥地利维也纳分子病理学研究所工作的生物化学家安德烈亚·保利(Andrea Paulli)发现了精子表面的这种蛋白质,她告诉《自然》科学杂志,她的团队在"每个项目"中都使用AlphaFold 2,因为它"加速了发现"。
解锁生命之谜:从心脏病到蜜蜂
AlphaFold参与的发现之一是确定了低密度脂蛋白(LDL)核心的关键蛋白质结构,LDL更常被称为"坏胆固醇",是心脏病的主要促成因素。这种称为apoB100的蛋白质由于其庞大尺寸及其与其他蛋白质的复杂相互作用而以前无法被绘制。但密苏里大学的两名科学家将一种成像方法——冷冻电子显微镜——与AlphaFold的预测相结合,找出了apoB100的结构。这反过来可能帮助科学家找到治疗高胆固醇的更好方法。
其他科学家已使用AlphaFold发现了卵黄蛋白原(Vitellogenin)的结构,这是一种在蜜蜂免疫系统中起关键作用的蛋白质。希望了解该蛋白质的结构可能帮助科学家更好地理解全球蜜蜂数量崩溃的原因,并可能提出基因改造方案,以产生更具抗病能力的蜜蜂物种。
AlphaFold预测的整体准确性取决于蛋白质类型。但AlphaFold还提供了一个置信度评分,让科学家能够判断是否应该信任AI对该蛋白质特定部分结构的预测。对于人类蛋白质,约36%的预测是高置信度的,而对于大肠杆菌(E.coli)细菌,AlphaFold对结构的高置信度评分约为73%。
有些蛋白质区域被称为"内在无序",因为它们的形状会根据周围其他物质和蛋白质而大幅变化。无论是经验成像方法还是基于AI的模型都无法提供关于这些无序区域外观的良好信息。(谷歌DeepMind于2024年推出的更强大的AI模型AlphaFold 3有时——但并不总是——可以预测这些无序区域如何与另一种蛋白质或分子结合。)
AlphaFold对药物发现的影响仍有待证明
AlphaFold最终可能会对药物发现产生重大影响,尽管到目前为止,很难评估该AI模型已经产生了多大差异。在一个案例中,科学家确实使用AlphaFold找到了两种现有的FDA批准的药物,这些药物可以重新用于治疗查加斯病,这是一种每年感染多达700万人并导致每年超过10,000人死亡的热带寄生虫病。
詹珀表示,在某种程度上,AlphaFold 2的后续AI模型可能会在药物发现中发挥比原始结构预测工具更直接的作用。例如,AlphaFold 3不仅预测蛋白质结构,还预测蛋白质如何相互结合以及与小分子结合的几个关键方面。这一点至关重要,因为大多数药物要么是与蛋白质上的目标位点结合以改变其功能的小分子,要么在某些情况下本身就是蛋白质。与此同时,AlphaFold Multimer是AlphaFold 2的扩展,可以预测蛋白质-蛋白质相互作用,也有助于药物设计。
谷歌DeepMind已分拆出一家名为Isomorphic的姊妹公司,该公司正在使用AlphaFold 3和其他工具设计药物。它与诺华(Novartis)和礼来(Eli Lilly)建立了合作伙伴关系,尽管尚未公开宣布其正在研发的药物候选者。AlphaFold 3可免费供学术研究人员使用,但Isomorphic和谷歌以外的商业实体不允许使用该软件。
谷歌DeepMind还创建了一个名为AlphaProteo的AI模型,可以设计具有特定结合特性的新型蛋白质。该AI实验室还创建了一个名为AlphaMissense的系统,可以预测单点基因突变的危害程度,这可能帮助科学家了解许多疾病的根源并可能找到治疗方法,包括可能的基因疗法。
詹珀表示,他个人有兴趣探索大型语言模型(如谷歌的Gemini AI)是否能在科学中发挥作用。一些AI初创公司已经开始尝试使用LLM,让科学家指定蛋白质的功能,然后LLM输出该蛋白质的DNA配方。(这些仍然必须通过实验测试以查看它们是否真正有效。)但詹珀表示,他对这类LLM在设计非常新颖的蛋白质方面的工作效果持一定程度的怀疑态度。詹珀还表示,他知道有些人已经创建了基本上是AlphaFold的聊天机器人前端,但他说这"并不那么有趣"。
相反,他表示,让他兴奋的是利用LLM的力量来开发新假设并设计新的实验来测试它们。DeepMind已经创建了一个基于Gemini的"AI科学家"原型,可以做一些这方面的工作。但詹珀表示,他认为这个概念还有更大的潜力。"真正令人兴奋的数据集和真正庞大的数据集是全部的科学文献,"他说。
【全文结束】


