摘要
生成式药物设计已成为制药研究中的变革性方法,利用深度学习模型创建具有靶向特性的新型分子。本系统综述从三个关键维度分析了当前计算方法的格局:分子表示策略(一维、二维和三维)、生成架构框架(包括变分自编码器、生成对抗网络、强化学习系统和扩散模型)以及评估方法学。我们对这些方法进行了全面分类,批判性评估其相对优势与局限性。此外,我们考察了驱动该领域发展的数据集及用于评估模型性能的指标。通过对这些相互关联组件的结构化分析,我们识别出重大研究缺口并提出了推进AI驱动药物发现的未来方向。本综述为研究者提供了理解计算药物设计中表示选择、生成机制与评估范式复杂交互的统一框架。
关键词
扩散模型
生成式药物设计
生成模型
变分自编码器
去噪扩散模型
缩写列表
AAE:对抗自编码器
ALERTS:不良亚结构警告计数
AROM:芳香环数量
CVAE:条件变分自编码器
DCGAN:深度卷积生成对抗网络
DFPM:去噪扩散概率模型
DFT:密度泛函理论
FCD:弗雷歇化学网络距离
GAN:生成对抗网络
GCPN:图卷积策略网络
GDPO:图扩散策略优化
GPTs:生成式预训练变换器
GraphMVP:图多视角预训练
GT:生成变换器
HBA:氢键受体数
HBD:氢键供体数
HVAE:分层变分自编码器
InChI:IUPAC国际化学标识符
IWAE:重要性加权自编码器
L-Net:配体神经网络
logP:亲脂性
LSTM-GAN:长短期记忆生成对抗网络
MAE:平均绝对误差
MCTS:蒙特卡洛树搜索
MDM:分子扩散模型
MSTG:分子亚结构树生成模型
MW:分子量
NA:原子数量
NLP:自然语言处理
NPR:归一化主比率
NSPDK:邻域子图成对距离核
PAINS:广谱干扰化合物
PDB:蛋白质数据库
pIC50:半数抑制浓度的负对数
PSA:极性表面积
QEPPI:蛋白质-蛋白质相互作用定量评估
QGAN-HG:混合生成器量子GAN
RMSD:均方根偏差
RNN:循环神经网络
ROTB:可旋转键数量
SASA:溶剂可及表面积
SAscore:合成可及性评分
Scaff:支架相似性
SDE:随机微分方程
SELFIES:自引用嵌入字符串
SMILES:简化分子线性输入系统
SNN:最近邻相似度
TPSA:拓扑极性表面积
VAE:变分自编码器
VGAE:变分图自编码器
意义陈述
近年来,生成式药物设计方法日益受到重视。通过利用人工智能生成新型药物候选物,研究人员能够更快速高效地识别潜在开发对象。该技术有望彻底革新药物发现与研发流程,为多种疾病提供更优疗法。尽管已有诸多综述文章尝试分类讨论相关方法,但本研究具有独特价值:首先,基于药物表示类型对方法进行系统归类;其次,在每种类别下按生成模型类型进一步细分,揭示了特定药物表示与生成模型的适配关系;同时深入剖析了各方法的优劣势。此外,本研究详细考察了核心数据集与评估指标,为领域发展提供了关键洞见。
【全文结束】


