Gero的ProtoBind-Diff通过仅使用序列设计分子重新定义药物发现
《BioSpectrum Asia》采访了Gero的首席执行官彼得·费迪切夫博士(Dr. Peter Fedichev),他解释了ProtoBind-Diff如何通过消除对蛋白质结构数据的需求,彻底改变药物发现过程。该平台基于超过一百万种蛋白质-配体相互作用的训练集,利用掩码扩散和语言建模技术,直接从氨基酸序列生成新化合物。费迪切夫博士分享了这种方法如何扩展可药物化的范围,加速针对具有挑战性的疾病靶点的发现,并使Gero能够迅速应对新兴的健康威胁。
ProtoBind-Diff如何解决缺乏3D结构数据的蛋白质靶向问题?
ProtoBind-Diff从设计之初就是为了克服药物发现中的一个根本瓶颈:高质量3D结构数据对于蛋白质-配体复合物的可用性有限。基于结构的方法(如对接或AlphaFold引导的生成模型)依赖于解析的蛋白质结构或预测的结合口袋,但这些数据对于许多生物学相关靶点——特别是新颖、无序或未充分表征的蛋白质——并不总是可用或可靠。这种结构数据的稀缺限制了可药物化靶点的空间,尤其是在癌症、衰老和神经退行性疾病等具有挑战性的治疗领域。
ProtoBind-Diff完全绕过了这一依赖,仅以蛋白质的线性氨基酸序列作为输入。该模型是一种掩码扩散语言模型,学习蛋白质序列与化学上有效的与其结合的小分子之间的联合分布。这使得ProtoBind-Diff能够在序列空间中有效运行,无需任何结构输入。
为了实现这一点,我们在超过一百万个已知蛋白质-配体相互作用的数据集上训练了该模型,这个数据集比任何基于结构的系统通常能访问的数据量大得多。这些相互作用来自公开可用的活性数据(例如IC50、Ki、EC50),涵盖多种测定类型和条件。如此丰富的基于序列条件的活性数据使模型能够有效地泛化,直接从序列层面模式中学习蛋白质结合位点及其化学偏好的潜在表示。换句话说,ProtoBind-Diff通过氨基酸序列基序隐式地学习“结合位点的样子”,而无需在3D中“看到”结合位点。
这种方法为之前不可药物化或结构上难以处理的靶点打开了基于理性设计的大门,利用了最普遍存在的生物特征:蛋白质序列。
是什么让ProtoBind-Diff在更难的靶点上表现优于Pocket2Mol等模型?
Pocket2Mol等类似模型在基于结构的生成方面取得了令人印象深刻的进展。然而,这些模型从根本上受到公共数据库(如PDB)中可用的蛋白质-配体共晶结构数量有限的制约。这些结构往往代表行为良好的靶点——主要是激酶、GPCR和其他具有高度保守结合口袋的经典药物靶点。
ProtoBind-Diff在训练数据规模和模型架构上有所不同。首先,我们使用的数据集比Pocket2Mol或传统的基于结构的生成模型通常使用的数据集大了一个数量级。我们的百万级蛋白质-配体对数据集涵盖了多样化的蛋白质家族、测定类型和化学骨架。这种广度赋予ProtoBind-Diff更强的泛化预测能力,尤其是针对新颖或低数据靶点。
其次,模型架构本身——基于掩码扩散和语言建模——允许更灵活的生成。ProtoBind-Diff不是依赖结合口袋的精确几何约束,而是根据学习到的序列基序、蛋白质家族背景以及活性化合物的先例生成分子。这种以序列为中心的策略在“困难”靶点上特别强大——那些缺乏解析结构、表现出高灵活性或无序性,或属于注释不足的蛋白质家族的靶点。
在内部基准测试中,ProtoBind-Diff在多个方面优于Pocket2Mol:(1) 针对具有挑战性的靶点生成类活性化合物的成功率;(2) 输出的化学多样性;(3) 使用正交生物活性预测器预测的结合强度。重要的是,ProtoBind-Diff还表现出更强的骨架新颖性,表明其探索模板方法之外未开发化学空间的能力更大。
这种仅基于序列的方法如何影响癌症和衰老等疾病的药物发现?
ProtoBind-Diff的仅基于序列的方法在癌症和衰老等治疗领域尤为有力,因为许多相关靶点超出了传统可药物化基因组的范围。
例如,在癌症中,致癌驱动因子如转录因子、内在无序蛋白和非经典蛋白质-蛋白质相互作用由于缺乏明确的结合口袋,历史上一直难以靶向。结构无序、低表达水平和较差的溶解性使得许多这些蛋白质对晶体学或AlphaFold建模具有抗性。然而,正是这些靶点如果能够被药物设计所触及,可能会极大地改变治疗范式。
ProtoBind-Diff可以解决这些靶点,因为它仅依赖于初级序列——几乎所有人类蛋白质都具备的特性。这使我们能够系统地生成针对长期被忽视或“不可药物化”靶点的小分子,例如MYC、FOXO或与细胞衰老和年龄相关炎症相关的内在无序蛋白(IDPs)。
在衰老的背景下,机会甚至更大。Gero基于5000万份纵向患者记录开发了一种物理信息驱动的人类健康大型模型。该模型使我们能够识别衰老的生物学根源以及疾病进展的最早上游调节因子。这些上游靶点通常与经典药物靶点无关,往往是低表达、非酶蛋白,几乎没有结构信息可用。借助ProtoBind-Diff,我们现在可以仅基于序列层面的洞察快速设计化合物来干预这些调节因子。
简而言之,ProtoBind-Diff扩展了可药物化的范围——特别是针对老龄化和肿瘤学领域中那些对依赖结构的平台来说遥不可及的靶点。
为什么在百万个蛋白质-配体对上进行训练对模型的成功至关重要?
在如此庞大且多样化的数据集上进行训练对于确保ProtoBind-Diff的广泛泛化能力和现实世界应用至关重要。与通常在几十万个解析的蛋白质-配体结构上训练的基于结构的生成模型不同,ProtoBind-Diff利用了更大规模的实验活性数据,其中大部分与序列相关,但缺乏相应的结构信息。
这个庞大的训练语料库使模型能够学习序列基序和化学特征之间的细微关系——本质上捕捉特定残基或结构域与配体骨架、功能团和药效团的统计共现关系。这些关联无法从较小或更具结构性约束的数据集中可靠推断。
此外,这种规模支持ProtoBind-Diff在低数据环境下的良好表现。例如,即使面对一个来自代表性不足家族的新蛋白质,该模型在训练过程中可能已经见过类似的序列基序或相关的相互作用模式。这为其提供了关于可能结合化学型的“先验”,使其即使在没有目标感兴趣结构或配体数据的情况下也能生成有意义的候选物。
最后,我们数据集覆盖的化学空间广度确保了该模型不会过度拟合到一组狭窄的已有化合物。相反,ProtoBind-Diff学习了一种丰富的化学语言,允许骨架多样性、新颖连接子形成以及真正首创新分子的生成。
ProtoBind-Diff在未来大流行期间加速治疗的作用是什么?
COVID-19大流行的一个关键教训是需要快速的药物发现平台,能够在不等待结构生物学或湿实验室筛选赶上进度的情况下应对新兴病原体。ProtoBind-Diff特别适合应对这一挑战。
因为它只需要蛋白质的氨基酸序列即可开始分子生成,ProtoBind-Diff可以在测序出一种新病毒基因组后立即部署。无需等待表达、纯化、晶体学或冷冻电镜数据。这种“从基因组到候选药物”的能力可以在几天内完成,从而在大流行情况下将治疗开发时间缩短数月。
此外,ProtoBind-Diff灵活的架构允许它并行生成针对多种病毒靶点的多样化化合物——例如蛋白酶、聚合酶或宿主相互作用因子——从而实现多管齐下的应对策略。然后,这些候选物可以使用高通量虚拟筛选进行分层,并根据结合预测、ADMET特性和化学新颖性优先合成和测试。
我们认为ProtoBind-Diff是一项关键技术,能够实现实时响应药物开发,有可能在未来健康危机中大幅压缩从发现到临床的时间线。
Gero下一步如何将ProtoBind-Diff引入现实世界的药物开发?
我们现在的重点是将ProtoBind-Diff整合到Gero的内部发现引擎和合作伙伴生态系统中。在内部,我们已经将该模型集成到我们的AI驱动药物发现管道中,针对高未满足需求的年龄相关疾病——例如纤维化疾病、免疫衰老和神经退行性疾病。
我们还在积极验证ProtoBind-Diff设计的化合物的体外和体内效果。该模型生成的几个命中化合物在初步筛选中显示出有希望的活性,优化正在进行中。这些项目代表了第一批完全由序列驱动、AI生成的针对复杂年龄相关靶点的分子进入实验验证阶段。
外部方面,我们正在与制药和生物技术领域的潜在合作伙伴接触,共同开发针对具有挑战性或新颖靶点的药物。ProtoBind-Diff对拥有专有蛋白质靶点但缺乏配体数据或结构的公司特别有价值。我们的目标是与这些合作伙伴合作,缩短发现时间表,扩展靶点组合,并更快地将新型疗法推向临床。
最终,我们将ProtoBind-Diff视为药物发现新范式的基础——一种将蛋白质序列视为分子治疗设计通用语言的范式。通过消除对结构的依赖,我们释放了AI在药物发现中的全部潜力——使以前难以处理的生物学变得触手可及,并加速通往新药的道路。
(全文结束)


