当你想到AI对科学的贡献时,你可能会想到AlphaFold,这个谷歌DeepMind的蛋白质折叠程序去年为其创造者赢得了诺贝尔奖。现在,OpenAI表示它也进入了科学领域,推出了一个用于蛋白质工程的模型。
该公司表示,它开发了一种语言模型,可以构想出能够将普通细胞转化为干细胞的蛋白质,并且在这个任务上轻松超过了人类的表现。这项工作代表了OpenAI的第一个专注于生物数据的模型,也是其首次公开声称其模型可以提供意外的科学成果。因此,这是确定AI能否进行真正发现的一个步骤,一些人认为这是通往“通用人工智能(AGI)”的重要测试。
上周,OpenAI首席执行官Sam Altman表示,他对公司知道如何构建AGI充满信心,并补充说,“超级智能工具可以极大地加速科学发现和创新,远超我们自己所能实现的程度。”
这个蛋白质工程项目始于一年前,当时位于旧金山的长寿研究公司Retro Biosciences找到OpenAI合作。这一合作并非偶然。据《MIT Technology Review》在2023年的首次报道,Sam Altman个人资助了Retro 1.8亿美元。
Retro的目标是将正常人类寿命延长10年。为此,它研究所谓的山中因子(Yamanaka factors)。这些是一组蛋白质,当添加到人类皮肤细胞中时,会使细胞变成看似年轻的干细胞,这种细胞可以产生体内任何其他组织。
这是一个现象,Retro的研究人员以及像Altos Labs这样资金雄厚的公司将其视为可能开始恢复动物活力、构建人体器官或提供替代细胞供应的起点。然而,这种细胞“重编程”的效率并不高。它需要几周时间,而且在实验室培养皿中处理的细胞中,只有不到1%会完成年轻化的过程。
OpenAI的新模型GPT-4b micro被训练以提出重新设计这些蛋白质的方法,以增强其功能。根据OpenAI的说法,研究人员使用该模型的建议改变了两个山中因子,使其效果提高了50倍以上——至少根据一些初步测量结果是如此。
“总的来说,这些蛋白质似乎比科学家们自己生产的更好,”OpenAI研究员John Hallman说。Hallman和OpenAI的Aaron Jaech以及来自Retro的Rico Meinl是该模型的主要开发者。
外部科学家无法判断这些结果是否真实,直到它们被发表,而公司表示他们正在计划这样做。此外,该模型尚未广泛可用——它仍然是一个定制演示,而不是正式的产品发布。
“这个项目旨在表明我们认真对待对科学的贡献,”Jaech说。“但这些能力是否会作为一个独立模型发布,还是会被整合到我们的主要推理模型中,还有待决定。”
该模型的工作方式不同于Google的AlphaFold,后者预测蛋白质的形状。由于山中因子是异常松散且无结构的蛋白质,OpenAI表示,它们需要不同的方法,而这正是其大型语言模型擅长的地方。
该模型是在许多物种的蛋白质序列示例以及哪些蛋白质倾向于相互作用的信息上进行训练的。虽然这些数据量很大,但它只是OpenAI旗舰聊天机器人训练数据的一小部分,使GPT-4b成为一个“小型语言模型”,专注于特定的数据集。
一旦Retro的科学家获得了该模型,他们尝试引导它提出可能重新设计山中因子的方法。所使用的提示策略类似于“少量学习”方法,即用户提供一系列带有答案的例子,然后让聊天机器人回应一个新的例子。
尽管基因工程师有办法在实验室中指导分子进化,但他们通常只能测试有限的可能性。即使是一个典型的长度蛋白质也可以通过几乎无限的方式改变(因为它们由数百个氨基酸组成,每个氨基酸有20种可能的变体)。
然而,OpenAI的模型经常提出建议,其中三分之一的氨基酸发生了变化。
“我们将这个模型立即投入实验室,并获得了实际的结果,”Retro的首席执行官Joe Betts-Lacroix说。他说,该模型的想法非常出色,在大多数情况下都优于原始的山中因子。
哈佛大学衰老研究员Vadim Gladyshev表示,改进制造干细胞的方法是必需的。“对我们来说,这将极其有用。[皮肤细胞]很容易重新编程,但其他细胞则不然,”他说。“而且在一个新物种中做到这一点——往往极其不同,你什么都得不到。”
GPT-4b究竟是如何得出这些猜测的仍然不清楚——就像AI模型经常出现的情况一样。“这就像当AlphaGo击败了最好的围棋选手,但花了很长时间才找出原因,”Betts-Lacroix说。“我们仍在弄清楚它在做什么,我们认为我们应用它的方法只是表面而已。”
OpenAI表示,在这次合作中没有涉及金钱交易。但由于这项工作可能使Retro受益——其最大投资者是Altman——这一宣布可能会增加围绕OpenAI首席执行官的副业项目的疑问。
OpenAI表示,Altman并未直接参与这项工作,而且公司从未基于Altman的其他投资做出决策。
(全文结束)


