Gero的无结构AI模型根据蛋白质序列生成小分子
Gero’s Structure-Free AI Model Generates Small Molecules from Protein Sequences
Gero是一家致力于开发抗衰老及慢性病治疗新方法的生物技术公司,最近发布了ProtoBind-Diff——一种新型的掩码扩散语言模型,该模型能够利用蛋白质的氨基酸序列生成类似药物的小分子。该公司已将ProtoBind-Diff整合到其内部药物发现流程中,并表示正在寻求合作伙伴,共同开展肿瘤学、免疫学、传染病以及与衰老相关的疾病项目。
关于该模型性能和设计的详细信息已在最近的一篇预印本论文《ProtoBind-Diff:用于蛋白质序列条件配体设计的无结构扩散语言模型》中发布。据开发者介绍,ProtoBind-Diff训练了超过一百万对活性蛋白质-配体数据。与基于结构的模型不同,后者仅限于少量已解析的蛋白质-配体复合物,而ProtoBind-Diff利用更广泛的化学和生物数据,使其能够针对结构数据稀少或不可用的目标进行泛化。
“设计能够作用于蛋白质靶点的小分子是药物发现中最困难的问题之一。经典建模方法难以应对,因为能量尺度、极化效应以及蛋白质动力学的复杂性使得高分辨率预测几乎不可能实现,”Gero首席执行官兼联合创始人Peter Fedichev博士解释道。相比之下,ProtoBind-Diff“从序列而非结构中学习。它不模拟物理过程,而是从一百万个真实案例中学习生物活性的‘语法’。”
作为Gero生成式药物发现平台的基础组件,ProtoBind-Diff使用预训练的蛋白质嵌入和去噪扩散框架,根据蛋白质序列数据生成全新分子。开发者将其性能与经典的对接方法以及基于结构的深度学习方法进行了对比。尽管在训练过程中从未接触3D信息,但预印本中的结果显示,ProtoBind-Diff的性能可媲美甚至超越Pocket2Mol和TargetDiff等基于结构的模型,无论是针对已充分研究的目标还是低数据目标。此外,该模型生成的分子被描述为具有高度新颖性、药物性和可合成性。
“模型仍处于早期开发阶段,但ProtoBind-Diff已经‘优于一些现有的3D结构模型’,”Gero高级研究员兼该项目首席科学家Konstantin Avchaciov博士表示,“随着我们不断扩展数据集以涵盖更多种类的蛋白质类别,我相信未来我们将取得显著更好的成果。”
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。