(A) 原子核与原子几何流形示意图。该流形表示由范德华半径定义的空间边界,设定了原子核之间的最小距离。(B) 围绕分子的流形示意图。(C) 从流形离散化获得的网格点示意图。(D) NucleusDiff流程。NucleusDiff对原子核和离散化网格点执行去噪扩散,其间距近似范德华半径。来源:美国国家科学院院刊 (2025)。DOI: 10.1073/pnas.2415666122
当机器学习用于提出新的潜在科学见解或方向时,算法有时会提供不符合物理规律的解决方案。以AlphaFold为例,这个AI系统预测氨基酸链如何复杂地折叠成3D蛋白质结构。该系统有时会提出"非物理性"的折叠——基于物理定律不可能的构型——特别是在被要求预测与其训练数据显著不同的链的折叠时。
为了限制药物设计领域中这种非物理性结果,加州理工学院计算与数学科学Bren讲席教授阿尼玛·阿南德库马尔(Anima Anandkumar)及其同事引入了一种名为NucleusDiff的新机器学习模型,该模型在其训练中融入了一个简单的物理概念,极大地提高了算法性能。
阿南德库马尔及其同事在美国国家科学院院刊发表的一篇作为"化学中的机器学习"特辑一部分的论文中描述了NucleusDiff。
基于结构的药物设计的目标是提出能够与生物靶标(通常是蛋白质)良好结合的小分子,称为配体,从而引起某种期望的活性变化。药物设计AI模型在包含数万个此类蛋白质-配体配对示例的数据集上进行训练,以及它们如何相互结合的信息,这是一个称为结合亲和力的重要测量指标。但重要的是,NucleusDiff更进一步。"通过机器学习,模型已经学习了构成良好结合的许多方面,现在我们加入一些简单的物理原理,以确保排除所有非物理性的东西,"阿南德库马尔解释道。
对于NucleusDiff来说,该模型确保原子彼此保持适当距离,考虑防止原子重叠或碰撞的排斥力等物理概念。"我们的算法背后有一些不错的物理理论,但它也很直观,"阿南德库马尔说。"令人惊讶的是,如果没有这些约束,所有这些AI模型都倾向于预测存在碰撞,原子靠得太近。通过添加简单的物理原理,我们提高了模型的准确性。"
NucleusDiff不是计算分子中每对原子之间的距离(这将是一项计算成本过高的任务),而是估计一个流形,或包络——对分子中原子分布和电子可能位置的粗略估计。在该流形上,它然后建立主要的锚定点进行监控,确保原子永远不会靠得太近。
研究团队在名为CrossDocked2020的训练数据集上训练了NucleusDiff,该数据集包含约10万个蛋白质-配体结合复合物。他们在100个这些复合物上进行了测试,发现它在结合亲和力方面显著优于最先进的模型,同时将原子碰撞数量减少到几乎为零。
接下来,研究人员使用新模型预测了一个未包含在训练数据集中的较新分子的结合亲和力:COVID-19治疗靶标3CL蛋白酶。同样,NucleusDiff显示出比其他领先模型更高的准确性,并将原子碰撞减少了多达三分之二。
这项工作符合阿南德库马尔和其他人在校园内通过一个名为AI4Science的倡议推动的更大努力,即将更多物理原理整合到为各种主题构建的数据驱动AI模型中——从气候预测到机器人技术,以及从地震学到天体物理建模。
"如果我们纯粹依赖训练数据,我们不期望机器学习在与训练数据显著不同的示例上表现良好,"阿南德库马尔说。事实上,她表示,机器学习的一个标准原则是输出通常落在训练数据中提供的示例范围内。但在药物设计等许多科学领域,研究人员正在寻找新的结果(例如,新分子)。
"我们看到很多机器学习在提出与训练数据不同的新示例的准确结果时失败,但通过融入物理原理,我们可以使机器学习更加可信,也能更好地工作,"阿南德库马尔说。
更多信息:刘胜超等,基于流形约束的原子核级去噪扩散模型用于基于结构的药物设计,《美国国家科学院院刊》(2025)。DOI: 10.1073/pnas.2415666122
期刊信息:《美国国家科学院院刊》
提供方:加州理工学院
【全文结束】


