科学家们利用新型OpenFold3模型揭开AlphaFold3的秘密
OpenFold3能够预测蛋白质如何与各种其他分子相互作用。图中展示了OpenFold3对蛋白质(蓝色)的预测的丝带图,与实验确定的结构(灰色)进行比较。左侧是人类PDE10蛋白(潜在新型精神分裂症药物的靶点),其中嵌套着一个抑制分子。干扰素调节因子4(多发性骨髓瘤药物靶点)与DNA结合(右上),抗体抓住另一个蛋白(右下)。
Lukas Jarosch/哥伦比亚大学
一种新型人工智能模型正在打开领先的人工智能工具的黑箱,该工具用于预测蛋白质如何与小分子(如药物)相互作用。
这款名为OpenFold3的模型于10月28日发布,是谷歌DeepMind的AlphaFold3的重建版本。由哥伦比亚大学的Mohammed AlQuraishi领导的大型研究团队仔细分析了AlphaFold3的代码,并创建了该AI平台的复制品,该平台可以预测蛋白质与其他分子(包括核酸和药物中的化学物质)配对的结构。AlphaFold3只能由个人、非商业组织或记者使用。但公司和其他任何人都可以将开源的OpenFold3模型用于商业目的,包括药物开发。
波士顿Psivant治疗公司的创始人兼首席创新官伍迪·谢尔曼表示,在药物设计中预测蛋白质-分子配对非常重要,“因为这就是生物学的工作方式。生物学不是孤立的蛋白质。它是生物分子相互作用。”谢尔曼还担任OpenFold执行委员会主席。
蛋白质是体内一些最勤劳的分子。这些工作马的表现很大程度上取决于它们的形状。AlphaFold2破解了预测蛋白质将采用什么形状的问题。该AI模型背后的团队因这一成就分享了2024年诺贝尔化学奖。AlphaFold3则引入了与其他蛋白质和分子的相互作用。
但与AlphaFold2不同,DeepMind最初没有向其他研究人员开放AlphaFold3的代码,至少在数百名科学家签署请愿书要求透明度之前没有。范德比尔特大学的计算结构生物学家斯蒂芬妮·万科维奇(请愿书的合著者)表示:“如果不看原始信息,很难评估计算产品。”万科维奇说,其他研究人员需要代码来测试预测的准确性和可靠性,并了解需要哪些其他数据来改进模型。
她表示,重建AlphaFold2让OpenFold创建者了解了AI的工作原理。万科维奇指出,AlphaFold2被宣传为一种基于氨基酸构建块学习蛋白质折叠的AI模型,但实际上它记住了以前见过的蛋白质结构,并利用这些记忆来预测相似蛋白质可能出现的方式。查看AlphaFold3的内部可能会对蛋白质-药物配对产生类似的见解。
万科维奇说,其他团队曾尝试复制AlphaFold3,“已经很接近,但不够精确。”
谢尔曼解释,这是因为很难复制AlphaFold3创建者头脑中存在但未在代码或补充信息中出现的细微技巧和调整。有些是用于计算特定部分的技术设置。“没有人指定这一点,”他说,“但细节很重要,尤其是当你处理大型模型和大量数据时。”他表示,OpenFold3团队尽力复制了AlphaFold3,但仍然存在一些差异。
谢尔曼强调,生物学因素同样关键。在细胞中,蛋白质浸泡在水和离子环境中,持续振动和移动。AI模型创建的静态图像或实验室结晶蛋白质的快照都无法捕捉这些动态特性。他透露,OpenFold3团队计划在模型中添加水分子和动态运动元素,以更真实地反映蛋白质在自然状态下的行为。
即使在正式发布前,制药公司已迅速采用OpenFold3。五家企业联合成立联邦OpenFold3计划,在专有数据上训练AI模型,构建更强大的预测工具的同时保护商业机密。该合作由柏林公司Apheris于10月1日宣布,该公司运营该计划平台。
Apheris联合创始人兼首席执行官罗宾·罗姆指出,在AlphaFold3和OpenFold3训练所用的公开数据库中,仅约2%的蛋白质结构与具有药物特性的分子配对,而制药公司数据库中存有数千个此类结构。他解释,联邦成员企业将在各自库中的4000至8000个蛋白质-药物对上训练OpenFold3版本,Apheris将这些本地模型聚合为中央版本——该版本掌握约20000个蛋白质与药物相互作用的知识,但不包含原始专有数据。聚合后的全球模型将返回各公司进行迭代训练。
谢尔曼提醒,尽管数据集持续扩展,但药物发现领域短期内不会出现革命性变化。他强调:“OpenFold3只是一个起点。真正开始对药物发现产生实质性影响的,将是后续的迭代阶段、再迭代阶段以及持续优化过程。”
【全文结束】


