药物发现流程素以成本高昂、进展缓慢和失败率高而闻名,这促使人工智能和机器学习日益普及,以加速研发进程并改善成果。
当前,药物发现中的机器学习主要聚焦于数据丰富的阶段,这些阶段为算法训练提供了充足数据。然而,流程中生成数据较少的环节同样可从机器学习中获益。
凯蒂·布莱顿(KB):您如何描述机器学习在当今现代药物发现中的作用?它在哪些方面仍存在不足?
丹尼尔·雷克尔博士(DR): 机器学习正积极重塑药物发现流程的多个环节,从制药和生物技术公司到科技企业及众多初创公司均广泛采用,同时引发高度关注。目前多数努力集中于靶点识别、先导化合物生成和临床试验阶段。虽然尚难做出最终评估,但早期迹象表明,计算方法已加速研发时间线并小幅提升成功率——鉴于药物发现成本高、周期长且失败率高,这一进展意义重大。
然而,机器学习的当前影响主要集中于数据丰富的阶段,这些阶段依赖高通量筛选、基因组学和大规模临床数据集来训练及优化复杂算法。在药物安全、先导化合物优化和制剂开发等数据匮乏的挑战领域,仍有巨大进步空间。这些环节依赖低通量实验,如复杂合成、材料表征和动物体内研究,却构成了决定药物候选物命运的关键决策点。新型实验平台与稳健计算算法的创新有望强化这些决策,相较于既往成果,可能更显著地降低成本与失败率,最终推动更多优质疗法惠及患者。
KB:能否进一步解释成对分子学习的概念?
DR: 成对分子学习将传统机器学习任务转化为对比性问题,使算法直接比较两个分子而非独立评估每个分子。本质上,我们不再询问计算机“分子A的效价是多少”,而是转化为“这两个分子中哪个效价更高”。这实现了组合式数据增强——仅需数百至数千原始数据点,即可生成数百万分子对比。简言之,我们为深度神经网络提供同一数据的多元视角以提升训练效率。
这使我们能在仅含100-1000种化合物的数据集上训练尖端深度学习架构,而药物安全性、代谢和药代动力学等关键属性的现实决策正发生于此——这些属性实验测量成本高昂,却对推进最佳候选物至关重要。我们认为,成对学习将赋能业界在这些数据匮乏但高价值的决策点释放深度神经网络的预测能力。
KB:成对分子学习为药物发现开辟了哪些新路径?
DR: 成对分子学习在药物发现中开辟了多条激动人心的路径。首先,它通过直接预测哪些化学修饰能改善药物安全性、代谢和效价等关键属性,实现更精准的计算分子优化,帮助药物化学家优先选择下一步合成的化合物,节约时间与资源。
其次,这种成对增强方法在数据稀缺场景中提升计算决策能力。这对药物安全性、代谢和制剂等关键决策点尤为珍贵——这些环节实验数据有限且生成成本高昂。
它还能增强对新型挑战性药物靶点的预测性能,尤其在知识积累尚少的领域,为机器学习更好支持首创疗法识别提供机会。算法上,成对学习通过整合通常被建模工作舍弃的边界值或表征不完整数据点进一步强化此能力——尽管不足以直接纳入传统模型,但这些数据点仍为优势候选物提供重要视角与对比。
第三,我们的数据表明该算法擅长识别真正新颖的分子。通过学习分子变化的影响而非简单识别已知化合物类似物,它避免了复杂算法常见的记忆化问题,推动算法聚焦于关系与模式学习。在概念验证数据中,这实现了优化过程中的更大幅结构修饰,有望显著提升药物候选物的安全性与疗效。
KB:机器学习与自动化实验室结合取得了哪些最大突破?瓶颈何在?
DR: 我所见的最大突破源于创建真正的自适应实验设计闭环。在机器学习领域,我们称之为“主动学习工作流”,即预测算法直接参与数据获取,可请求最具信息量的数据点。我们的工作及其他研究证明,此类设置可将决策所需数据减少90%,并通过解决数据偏差构建更优预测模型。这些工作流已助力我们用更少数据点识别新药物候选物,并以更高精度发现提升药物疗效与安全性的新型纳米颗粒制剂。
当前主要瓶颈在于自动化基础设施与算法鲁棒性。多数高通量筛选平台为规模牺牲灵活性,例如依赖快速筛选预定义化合物库,而非支持算法建议的自适应精选实验。此外,材料表征甚至动物体内研究等关键实验难以整合到这些自动化工作流中。
我们认为,此类反馈循环在真正低数据场景(如早期项目不足100个数据点)中影响最为显著。但构建预测模型并使其决定下一步获取哪个数据点,对最高效的数据计算方法仍是挑战。我们正通过成对学习方法及联结学习(算法配对协作)等新型主动学习发展来应对。在自动化架构与实验设计策略方面,仍有广阔创新空间以最大化集成实验室对药物发现的影响。
KB:能否透露您在SLAS 2026会议上的演讲亮点?
DR: 我对即将举行的SLAS 2026充满期待,这将是一场关于药物发现中自动化与人工智能交叉领域的精彩会议。
在我的演讲中,我将介绍这些成对学习与主动学习概念,以及一些社区将感到振奋的新颖未发表成果。亮点之一是一种新型算法类别——它通过战略性“遗忘数据”来增强学习能力。这看似违反直觉,但我们观察到模型收敛至更优解决方案的速度显著提升。
我将结合药物发现和纳米颗粒设计的实例,展示这些算法的实际潜力。目标是证明自适应机器学习如何为药物开发每个阶段(从早期苗头化合物识别到制剂优化)带来更优决策。
我期待与有意在自身流程中部署这些方法的潜在合作伙伴建立联系。真正的突破将源于让学术界和工业界更多研究团队掌握这些工具。
【全文结束】

