Gero的ProtoBind-Diff通过仅使用序列设计分子重新定义药物发现。
《BioSpectrum Asia》与Gero首席执行官彼得·费迪切夫博士进行了对话,他解释了ProtoBind-Diff如何通过消除对蛋白质结构数据的需求来改变药物发现的方式。该平台基于超过一百万种蛋白质-配体相互作用的训练集,利用掩码扩散和语言建模直接从氨基酸序列生成新化合物。费迪切夫博士分享了这种方法如何扩展可成药领域,加速针对复杂疾病靶点的发现,并使Gero能够迅速应对新兴健康威胁。
ProtoBind-Diff如何解决缺乏3D结构数据的蛋白质靶向问题?
ProtoBind-Diff从头开始设计,旨在克服药物发现中的一个基本瓶颈:高质量蛋白质-配体复合物3D结构数据的有限可用性。虽然基于结构的方法(如对接或AlphaFold引导的生成模型)依赖于解析的蛋白质结构或预测的结合位点,但这些对于许多生物学相关靶点(尤其是新型、无序或特征不明确的蛋白质)来说并不可靠或不可用。这种结构数据的稀缺性限制了可成药靶点的空间,特别是在癌症、衰老和神经退行性疾病等具有挑战性的治疗领域中。
ProtoBind-Diff完全绕过了这种依赖性,仅使用蛋白质的线性氨基酸序列作为输入。该模型是一种掩码扩散语言模型,学习蛋白质序列和化学上有效的与其结合的小分子之间的联合分布。这使得ProtoBind-Diff能够在序列空间中有效运行,无需任何结构输入。
为实现这一目标,我们使用超过一百万个已知的蛋白质-配体相互作用对模型进行了训练,这比任何基于结构的系统通常可以访问的数据集大得多。这些相互作用来自多种测定类型和条件的公开活性数据(例如IC50、Ki、EC50)。这种丰富的序列条件活性数据使模型能够有效泛化,直接从序列级模式中学习潜在的蛋白质结合位点及其化学偏好。换句话说,ProtoBind-Diff通过氨基酸序列基序隐式学习“结合位点是什么样的”,而无需在3D中“看到”结合位点。
这种方法为以前无法成药或结构上棘手的目标打开了理性药物设计的大门,使用最普遍的生物特征——蛋白质序列。
ProtoBind-Diff为何在更难的靶点上表现优于Pocket2Mol等模型?
Pocket2Mol及类似模型在基于结构的生成方面取得了令人印象深刻的进展。然而,这些模型从根本上受到公共数据库(如PDB)中可用的蛋白质-配体共晶结构数量有限的限制。这些结构往往代表行为良好的靶点——主要是激酶、GPCR和其他具有高度保守结合口袋的经典药物靶点。
ProtoBind-Diff在训练数据规模和模型架构上有所不同。首先,我们使用的数据集比Pocket2Mol或传统的基于结构的生成模型通常使用的数据集大了一个数量级以上。我们的百万以上蛋白质-配体对数据集包括多样化的蛋白质家族、测定类型和化学支架。这种广度赋予ProtoBind-Diff更强的泛化预测能力,特别是对于新颖或低数据靶点。
其次,基于掩码扩散和语言建模的模型架构本身支持更灵活的生成。ProtoBind-Diff不像依赖结合口袋的精确几何约束那样,而是根据学习到的序列基序、蛋白质家族背景和活性化合物的先例生成分子。这种以序列为中心的策略在“困难”靶点上特别强大——那些缺乏解析结构、表现出高灵活性或无序性,或属于注释不良的蛋白质家族的靶点。
在内部基准测试中,ProtoBind-Diff在多个方面优于Pocket2Mol:(1) 在生成挑战性靶点的活性样化合物方面的成功率,(2) 输出的化学多样性,以及(3) 使用正交生物活性预测器预测的结合强度。重要的是,ProtoBind-Diff还表现出更强的支架新颖性,表明它有更大的能力探索模板方法以外的未开发化学空间。
仅使用序列的方法如何影响癌症和衰老等疾病的药物发现?
ProtoBind-Diff的仅序列方法在癌症和衰老等治疗领域尤其具有影响力,在这些领域中,许多相关靶点超出了传统可成药基因组的范围。
例如,在癌症中,致癌驱动因素如转录因子、内在无序蛋白和非经典蛋白质-蛋白质相互作用由于缺乏明确的结合口袋,历史上一直难以靶向。结构紊乱、低表达水平和差的溶解性使许多这些蛋白质对晶体学或AlphaFold建模具有抗性。然而,正是这些靶点如果能够被药物设计所触及,可能会极大地改变治疗范式。
ProtoBind-Diff可以解决这些靶点,因为它仅依赖于初级序列——几乎每种人类蛋白质都有这一点。这使我们能够系统地生成针对长期以来被忽视或“不可成药”的靶点(如MYC、FOXO或与细胞衰老和年龄相关炎症有关的IDPs)的小分子。
在衰老的背景下,机会更大。Gero基于5000万纵向患者记录开发了一个物理信息的人类健康大型模型。该模型使我们能够识别衰老的生物学根本原因和疾病进展的最早上游调节因子。这些上游靶点通常与经典药物靶点无关,往往是低表达、非酶蛋白,几乎没有可用的结构信息。借助ProtoBind-Diff,我们现在可以仅基于序列级洞察快速设计与这些调节因子结合的化合物。
简而言之,ProtoBind-Diff扩大了可成药领域——特别是对于那些对依赖结构的平台来说遥不可及的与衰老和肿瘤学相关的靶点。
为什么训练超过一百万蛋白质-配体对对模型的成功至关重要?
如此大规模且多样化的训练数据对于确保ProtoBind-Diff的广泛泛化能力和实际应用至关重要。与基于结构的生成模型不同,后者通常基于几十万已解析的蛋白质-配体结构进行训练,ProtoBind-Diff利用了更大范围的实验活性数据,其中大部分与序列相关但缺乏对应的结构信息。
这个庞大的训练语料库使模型能够学习序列基序与化学特征之间的细微关系——本质上捕捉特定残基或域与配体支架、功能团和药效团之间的统计共现。从小或结构受限的数据集中可靠推断这些关联是不可能的。
此外,这种规模支持ProtoBind-Diff在低数据状态下的良好表现。例如,即使面对来自代表性不足家族的新蛋白质,该模型在训练过程中可能已经见过类似的序列基序或相关的相互作用模式。这为其提供了可能的结合化学型的“先验”,使其即使在没有结构或配体数据的情况下也能生成有意义的候选分子。
最后,我们数据集覆盖的化学空间广度确保模型不会过度拟合到一组已充分探索的化合物。相反,ProtoBind-Diff学习了一种丰富的化学语言,允许支架多样性、新连接子形成以及真正首创新分子的生成。
ProtoBind-Diff在未来疫情中加快治疗的速度能起到什么作用?
COVID-19大流行的一个关键教训是需要快速药物发现平台,可以在不等待结构生物学或湿实验室筛选赶上进度的情况下应对新兴病原体。ProtoBind-Diff非常适合解决这一挑战。
因为它只需要蛋白质的氨基酸序列即可开始分子生成,ProtoBind-Diff可以在测序新的病毒基因组后立即部署。无需等待表达、纯化、晶体学或冷冻电镜数据。这种“从基因组到候选药物”只需几天的能力,可以在大流行环境中将治疗开发时间表缩短数月。
此外,ProtoBind-Diff灵活的架构允许它并行生成针对多个病毒靶点的多样化化合物——例如蛋白酶、聚合酶或宿主相互作用因子——从而实现多管齐下的响应策略。然后可以使用高通量虚拟筛选对这些候选分子进行分诊,并根据结合预测、ADMET属性和化学新颖性优先合成和测试。
我们认为ProtoBind-Diff代表了实时响应药物开发的关键赋能技术,有可能在未来健康危机中大幅压缩从发现到临床的时间表。
Gero下一步如何将ProtoBind-Diff带入现实世界的药物开发?
我们的重点现在是将ProtoBind-Diff操作化到Gero的内部发现引擎和合作伙伴生态系统中。在内部,我们已经将该模型集成到我们的AI驱动药物发现管道中,针对未满足需求高的与衰老相关的疾病——如纤维化疾病、免疫衰老和神经退行性疾病。
我们还在体外和体内积极验证ProtoBind-Diff设计的化合物。由该模型生成的几个命中化合物在初步筛选中显示出有希望的活性,优化正在进行中。这些项目代表了第一批完全由序列驱动、AI生成的针对复杂衰老相关靶点的分子进入实验验证。
外部方面,我们正在与制药和生物技术领域的潜在合作伙伴接触,共同开发针对具有挑战性或新颖靶点的药物。ProtoBind-Diff对拥有专有蛋白质靶点但配体数据有限或没有结构的公司特别有价值。我们的目标是与这些合作伙伴合作,缩短发现时间表,扩展靶点组合,并更快地将创新疗法推向临床。
最终,我们将ProtoBind-Diff视为药物发现新范式的基石——一种将蛋白质序列视为分子治疗通用设计语言的方法。通过去除结构依赖性,我们解锁了AI在药物发现中的全部潜力——使以前棘手的生物学变得可及,并加速新药的开发路径。
(全文结束)


