摘要
本期特刊编辑文章分析了《化学信息学杂志》"药物发现中的AI"专刊发表的研究成果。我们综述了新型机器学习发展如何增强基于结构的药物发现,包括分子性质预测精度提升和化学反应预测优化。特刊重点探讨了通过预训练提升模型准确性、预测误差评估、超参数调优避免过拟合等方法论创新,并纳入了人类专家知识分析和对抗攻击敏感性研究。这些研究共同证明,机器学习已成为现代药物发现不可或缺的工具,并将在未来推动自动化化学实验室发展。
图文摘要
"药物发现中的AI"特刊与第33届国际人工神经网络会议(ICANN2024)同期举办,收到来自20个国家的63篇投稿,最终26篇见刊。本特刊收录了E-GuARD等新型毒性预测方法,并组织了Tox24挑战赛。研究涵盖机器学习在药物发现中的多维度创新应用。
基于结构的药物发现:结合位点、对接与评分函数
基于结构的药物发现关键步骤是识别结合口袋以开发新活性分子。Wang等开发的CLAPE-SMB方法通过对比学习和蛋白质语言模型预测蛋白质-DNA结合位点,其性能优于依赖三维结构的现有方法。研究发现使用焦点损失函数(focal loss)解决数据不平衡问题(结合位点不足氨基酸总量的5%)效果有限。
在结合位点确定后,传统对接工具如AutoDock采用力场或经验评分函数。Gnina创新性采用卷积神经网络评分,最新版v1.3通过知识蒸馏技术提升推理速度,并新增共价对接评分功能。Mukta等提出AGL-EAT-Score方法,将蛋白质-配体复合物转换为SYBYL原子类型三维子图,通过特征值分析生成17,000个描述符,结合梯度提升树构建结合亲和力预测模型。
Errington等评估了机器学习模型对分子-蛋白相互作用(如药效团)的预测能力,发现传统方法在药效团恢复方面表现更优。Wang等开发的DeepTGIN采用Transformer和图同构网络预测结合亲和力,其注意力机制可直观展示分子间相互作用。
Le等开发的PoLiGenX生成模型通过潜变量条件约束直接优化结合姿态,生成分子在空间位阻和应变能方面优于传统扩散模型。Nahal等研究显示,整合人类专家知识可显著提升主动学习效果,促进化学空间探索和理想性质分子生成。
分子属性预测
药物计算研究依赖分子属性预测,ADMET模型发展尤为关键。Yang等开发的AttenhERG采用图注意力网络实现最高预测精度,可解释哪些原子对hERG毒性贡献最大。Kyro等设计的CardioGenAI框架能早期识别并优化hERG毒性药物。Rodríguez-Belenguer开发的StreamChol提供肝毒性预测工具,Palmacci等开发的E-GuARD通过数据增强解决实验数据稀缺问题。
Vigna等研究显示,机器学习可将过渡金属配合物光吸收预测速度提升至传统TDDFT方法的数个数量级。Ushenin等开发的LAGNet通过核抑制模型和新型网格架构优化电子密度预测,显著提升神经网络训练效率。
机器学习方法分析与基准测试
Guo等研究表明,UMAP聚类分割较Butina分割等传统方法提供更具挑战性的基准测试。ChemProp等图神经网络在物理化学性质预测中表现优异,但Fastprop等新型描述符组合方法在保持精度前提下提速10倍。Tetko等发现预设超参数组合较网格搜索优化效率提升万倍且精度相当。
预训练对模型提升显著,Fallani等发现量子化学性质预训练可增强ADMET预测性能。Masood等开发的VitroBERT通过体外数据预训练显著改善DILI预测。Friesacher等提出贝叶斯不确定性估计方法,在提升校准精度的同时实现更优决策支持。
Krüger等研究揭示模型共享存在数据泄露风险,对抗攻击可反向推导训练数据。采用图神经网络表征学习可显著降低该风险。Masood等开发的贝叶斯主动学习框架结合BERT预训练,在数据效率上取得突破。
反应预测
Torren-Peraire等建立的会聚逆合成规划方法可使同时合成化合物数量提升30%。Andronov等通过推测解码技术实现化学反应预测速度提升3倍。Vangala等研究显示,大型语言模型可从专利文献提取26%的新反应数据。
本期特刊还收录了Flores-Hernandez等关于深度学习化学语言模型的系统综述。虽然这些研究未涵盖该领域全部进展,但已充分展示机器学习对传统计算化学方法的超越态势,特别是在模型解释和专家知识整合方面。
展望未来,机器学习在药物发现中的应用将持续深化。在提升模型性能的同时,需关注计算资源优化、碳足迹降低和模型安全性等新挑战,正如我们之前在《从大数据到人工智能》社论中强调的那样。随着计算硬件的发展,自动化化学实验室的建设将进入新纪元。
【全文结束】


