SandboxAQ发布蛋白质-配体结构与结合亲和力公共数据库SandboxAQ Debuts Public Database of Protein-Ligand Structures and Binding Affinities

环球医讯 / AI与医疗健康来源:www.genengnews.com美国 - 英文2025-06-25 19:00:00 - 阅读时长4分钟 - 1996字
SandboxAQ推出全球最大的蛋白质-配体对公开数据集,包含实验性结合效能数据,旨在通过AI加速药物发现,降低研发成本,并解决数据匮乏问题,为深度学习模型提供支持。
蛋白质配体结构结合亲和力公共数据库药物发现AI模型训练数据SAIRSandboxAQNvidia健康研究
SandboxAQ发布蛋白质-配体结构与结合亲和力公共数据库

近日,SandboxAQ推出了其声称是全球最大的蛋白质-配体对公开数据集,其中包含注释的实验性结合效能数据。据该公司介绍,这一结构增强型IC50存储库(SAIR)涵盖了超过100万种蛋白质-配体系统中的约520万个合成三维分子结构。

关于该资源及其开发的完整细节可以在题为《SAIR:利用合成结构数据集实现蛋白质-配体相互作用的深度学习》的预印本中找到。除了利用SandboxAQ的大规模定量模型(LQM)能力——这些模型是在定量和科学数据上训练的人工智能模型——SAIR的开发者还使用了Nvidia的DGX™云平台,这是一个用于AI模型训练和微调的开发平台。

如同许多从事药物发现和开发的公司一样,SandboxAQ押注于人工智能能够显著缩短时间线并降低成本。药物发现是少数几个行业中,高达70%以上的支出用于研究和开发的领域之一。“一切都在不断变化,每种药物都不同,”SandboxAQ AI和量子负责人亚当·刘易斯(Adam Lewis)表示,“在探索这一领域的过程中,我们自己也遇到了这种情况。”

药物发现成本的一个关键因素是需要进行实验来确定候选分子是否能有效结合目标蛋白。AI工具在这方面可以提供很大帮助,但实验室实验的高昂成本意味着用于训练这些模型的数据集非常缺乏。

“我们一直希望在创建针对药物发现问题的AI模型方面进行自己的研发投资。我们发现的一个问题是数据的缺乏,”刘易斯在接受《GEN》采访时说道。“在药物发现中构建LQM的原因在于,实验既缓慢又昂贵,有时甚至不安全。”如果能够获得合适的训练数据集,“AI可以在信息层面完成这些实验,而无需实体操作”,这“开辟了一些实验上无法实现的新机会”。但“由于这些实验缓慢、昂贵且可能危险,可用于训练的数据量是有限的。”

帮助AI做出更好的预测

像AlphaFold、OpenFold和Boltz这样的程序能够有效地生成蛋白质结构和蛋白质-药物相互作用的数据,但它们也有局限性。此外,很少有蛋白质-配体复合物同时具有解析出的3D结构和效能测量值,因此大多数AI算法都是基于间接数据(如序列或2D化学结构)进行训练的。刘易斯指出,较新的共折叠模型可能只能对与训练数据相似的蛋白质和配体做出预测,而在处理新颖蛋白质或化学多样性化合物时可能会遇到困难。

帮助AI算法做出更好预测的一种方法是尝试“生成更多的实验结构数据”。另一种方法是“找到利用不同类型数据的方法”,刘易斯说,“这就是我们在SAIR项目中所做的。”

为了开发SAIR数据,科学家们使用了公开可用的资源,如BindingDB和ChEMBL,并采用了一种共折叠模型(在本例中为Boltz-1)来预测序列-亲和力对的三维结构。至关重要的是,他们没有依赖单一预测,而是选择生成多个具有不同姿态的结构,以最好地捕捉不确定性区域。

“你得到的是模型能力范围内与这些亲和力对相关的多种不同预测,”刘易斯解释道。接下来,团队使用亲和力预测算法分析这些结构,选择那些与实验亲和力数据最一致的结构,并丢弃不符合要求的结构。“实际上,这是一种利用更便宜的数据……改进结构数据的方式,而无需直接创建实验晶体结构。”

对于SandboxAQ AI与模拟平台产品主管阿尔曼·扎里巴菲扬(Arman Zaribafiyan)来说,SAIR填补了他所描述的长期存在的蛋白质结构、结合亲和力和药物效力之间的空白。他也认同刘易斯关于大规模生成训练数据的高昂成本以及使用二维化学结构和序列信息进行算法训练的局限性的观点。“SAIR的发布证明了我们有能力大规模运行这些模拟,为现有的数据生成3D结构,并将它们与结合亲和力联系起来。”

他强调了Nvidia对该项目的贡献,指出SAIR团队与这家计算公司密切合作,在GPU利用率方面实现了2倍的提升。仅仅增加GPU数量是不够的,扎里巴菲扬指出,“你必须优化你的工作流程”,并“确保提高GPU的利用率”。

SAIR的数据对于基准测试生物基础模型或训练和微调新的人工智能(AI)模型以预测结合亲和力最为有用。这些数据可免费用于非商业用途,遵循CC BY-NC-SA 4.0许可协议。“我们认为它可能被广泛使用的场景包括校准新的亲和力模型或训练亲和力结构模型,当然,我们也欢迎科学界的创造性应用,”刘易斯说。

与此同时,商业用户也可以在向SandboxAQ提交表格后免费使用这些数据。通过利用SAIR数据进行训练,其开发者相信AI模型能够比传统基于物理的方法快至少1000倍地提供预测。

该公司还在考虑如何长期维护这一资源。“在某种程度上,这将取决于社区的反馈和我们自身的发展,”刘易斯说。一种选择是简单地扩展数据集。另一种选择是“创建新的平行数据集”,涵盖的不仅仅是小分子。“我们的愿景是扩展到全细胞建模,我们将此视为朝这个方向迈出的基础一步,”他说。


(全文结束)

大健康
大健康