药物研发管线是一个成本高昂且耗时漫长的过程。在早期阶段识别高质量的"命中"化合物——即具有高效力、高选择性和良好代谢特性的化合物——对于降低成本并加速进入临床试验阶段至关重要。近十年来,科学家们一直寻求利用机器学习来提高这一初始筛选过程的效率。
计算机辅助药物设计用于计算筛选与靶标蛋白相互作用的化合物。然而,准确快速地估计这些相互作用的强度仍然是一个挑战。
机器学习曾有望弥合黄金标准物理计算方法的准确性与简单经验评分函数的速度之间的差距。然而,由于当前的机器学习方法在遇到训练过程中未曾接触过的化学结构时可能无法预测地失败,这一潜力至今未能实现,这也限制了其在真实世界药物发现中的实用性。
范德比尔特大学医学院基础科学学院药理学助理教授 Benjamin P. Brown 博士
Brown 是近期发表在《美国国家科学院院刊》上的一篇解决这一"可泛化性差距"论文的唯一作者。在该论文中,他提出了一种针对性方法:Brown 提议采用一种特定任务的模型架构,该架构有意限制只从相互作用空间的表征中学习,而不是从蛋白质和药物分子的整个3D结构中学习,这种表征捕捉了原子对之间与距离相关的物理化学相互作用。
"通过将模型限制在这种视角下,它被迫学习分子结合的可迁移原理,而非训练数据中存在的结构捷径,这些捷径无法泛化到新分子上。" Brown 表示。
Brown 研究的一个关键方面是他开发的严格评估协议。他表示:"我们设置训练和测试运行以模拟真实场景:'如果明天发现了一个新的蛋白质家族,我们的模型是否能够对其做出有效预测?'" 为此,他将整个蛋白质超家族及其所有相关化学数据从训练集中排除,创建了一个具有挑战性且真实的测试,以检验模型的泛化能力。
Brown 的研究为该领域提供了几个关键见解:
- 特定任务的专业架构为利用当今公开可用数据集构建可泛化模型提供了明确途径。通过设计具有特定"归纳偏置"的模型,强制其从分子相互作用的表征而非原始化学结构中学习,模型能够更有效地泛化。
- 严格且真实的基准测试至关重要。该论文的验证协议显示,当代机器学习模型在标准基准测试中表现良好,但在面对新的蛋白质家族时性能可能显著下降。这凸显了该领域需要更严格的评估实践,以准确衡量实际应用价值。
- 目前相比传统评分函数的性能提升虽然有限,但这项工作为一种不会不可预测失败的建模策略建立了清晰可靠的基线,这是构建可信赖的药物发现人工智能的关键一步。
作为蛋白质动力学人工智能中心的核心教师,Brown 知道还有更多工作要做。他目前的项目仅专注于根据化合物与靶标蛋白相互作用的强度进行评分排序——这只是基于结构的药物发现方程的一部分。Brown 表示:"我的实验室从根本上对分子模拟和计算机辅助药物设计中与可扩展性和可泛化性相关的建模挑战感兴趣。希望很快我们能分享一些旨在推进这些原则的额外工作。"
目前,重大挑战仍然存在,但 Brown 在构建基于结构的计算机辅助药物设计中更可靠的机器学习方法方面的工作,已经明确了前进的方向。
【全文结束】


