摘要
人工智能(AI)和机器学习(ML)通过解决传统药物发现中高成本、长周期、低成功率等持续性挑战展现出变革潜力。本综述批判性分析了2019-2024年AI/ML方法在药物研发全流程中的最新进展,从靶点识别到临床开发,重点考察深度学习、图神经网络和Transformer技术在靶点识别、先导化合物发现、优化及临床前安全评估中的应用。通过深入比较不同AI方法的优势与局限性,强调数据质量、模型验证和伦理考量等关键因素。研究总结了当前应用现状,识别出数据可及性、可解释性和临床转化等持久性挑战,并提出释放AI潜力以开发更安全有效药物的未来方向。通过强调透明方法论、严格验证和伦理框架,旨在指导AI在药物研发中的负责任整合。
1. 引言
传统药物发现过程复杂且耗时十年以上,成本常超20亿美元。其序列化阶段(靶点识别、命中发现、临床前测试、漫长临床试验)消耗大量资源,仅约10%进入临床试验的药物最终获批,安全性和有效性不足是主要失败原因。常见高通量筛选(HTS)2.5%的命中率进一步延长周期并浪费资源。
人工智能和机器学习通过提升效率和成功率提供了突破路径。AI/ML不仅能修正传统限制,还能基于新参数模型开辟创新机会。
1.1 综述目标
- 总结当前AI/ML应用及影响范式变革的方法
- 识别药物开发各阶段的关键技术与参数
- 评估方法影响并提出优化新路径
- 探讨大语言模型在伦理、数据访问等维度的新趋势
1.2 范围与边界
聚焦2019-2024年AI/ML在小分子药物发现中的应用,强调云实现和现代架构。排除仅专注制剂、自动化/高通量研究(除非直接应用AI),单患者数据集和预印本仅在特别新颖时纳入。
1.3 核心概念
AI通过模拟人类智能解决药物发现难题,ML作为子领域使系统从数据中学习预测。深度学习(DL)用多层神经网络分析复杂数据。关键阶段包括:
- 靶点识别:AI加速疾病相关生物靶点发现
- 先导优化:AI/ML优化药物候选物的生物活性与性质
- ADMET研究:AI预测药物吸收、分布、代谢、排泄与毒性
- 高通量筛选:AI增强检测系统识别化合物
- 药物再利用:AI发现现有化合物新用途
1.4 结构安排
本综述按"背景介绍-文献策略-理论基础-阶段应用-现状分析"结构展开,最终提出未来方向及伦理反思。
2. 方法
2.1 检索策略
在PubMed、Scopus等数据库用PICO框架检索(药物发现+AI/ML+结果输出),关键词组合见表1。
2.2 纳入排除标准
纳入AI/ML在小分子药物发现中的同行评审全文,排除社论、摘要及非英文文献。预印本仅在提供关键新见解时纳入。
2.3 研究选择流程
使用EndNote管理文献,通过PRISMA流程筛选(图1),经双人独立评估。
3. 理论框架
3.1 历史演进
1960s计算机辅助药物设计(CADD)起步,1980sML方法出现,2000s深度学习突破,2020s多模态数据整合。
3.2 核心范式
图神经网络(GNNs)和Transformer架构主导药物发现,其中Edge-Set Attention(ESA)以边缘集关注机制实现无需复杂编码的高性能。
3.2.1 GNNs在分子建模
GravNet模块直接学习分子图结构关系(图2)。GCNs、GATs和PNA在MoleculeNet基准中表现优异,如ESOL(溶解度预测)和FreeSolv(水合自由能预测)。
3.3 伦理监管
需解决数据偏差、模型验证和透明度问题。FDA和EMA正制定AI安全参数。
4. 研究结果与讨论
4.1 靶点识别方法
- 自然语言处理:提取文本数据构建预测网络,但需解决语言表征偏差
- 组学数据AI:处理基因组/蛋白质组数据,但需标准化方法
- 分子相似性:用Tanimoto系数筛选化合物,但局限于已知化学空间
- 网络药理学:整合PPI网络与GNNs,但需解决数据库偏差
4.2 先导化合物发现与优化
AI显著加速高通量筛选(如MSGNN-DTA低RMSE 1.237)和结构设计(如DiffDock扩散模型突破传统对接限制),但依赖已知结构模板。
4.3 ADMET与临床开发
- 预测毒理学:ChemBERTa达0.973 AUC,PBPK模型误差降低30%
- 临床试验设计:Trial Pathfinder减少25-40%样本量
4.4 挑战与争议
- 数据质量:LIT-PCBA解决数据偏,MF-PCBA整合多保真数据
- 模型偏差:JDASA-MRD整合深度自编码器提升生物网络预测
- 可解释性:需发展XAI方法降低黑箱效应
4.4.1 实践挑战
- 集成现有流程需基础设施改造
- 监管接受度需建立标准化验证指标
- 技能缺口需跨学科培训
5. 结论
AI/ML已显著加速药物开发,但需解决数据偏倚、可解释性和临床转化。未来方向包括:
- 数据标准化平台(如LIT-PCBA)
- 生成式对接方法(如DiffDock)
- 可解释AI(XAI)
- 多模态整合(生物测定+临床终点)
- 体内数据整合(从细胞实验到实时患者数据)
5.4 结语
AI驱动药物发现的变革潜力取决于伦理验证方法、标准化监管和偏倚控制。本综述通过全流程分析(从靶点识别到临床开发),为负责任整合AI技术提供路线图。
【全文结束】


