摘要与图表
目前,包括传统方法在内的药物发现方法无法充分应对糖尿病带来的挑战,导致数百万人死亡。此外,无效药物无法充分维持糖尿病患者的健康状态以预防严重并发症。生成式人工智能(GenAI)现已成为缓解这些不便的有力工具,提供可能彻底改变糖尿病管理和改善患者预后的创新解决方案。本系统性文献综述旨在考察GenAI在药物发现中的应用和效果,概述该技术的优势、挑战和未来前景。本综述遵循系统评价和荟萃分析优先报告条目(PRISMA)指南。在Google Scholar、IEEE、Science Direct、PubMed和Springer等各类数据库中进行了全面文献检索。纳入了2020年至2024年间发表的研究,其中15篇文章符合纳入标准。结果表明,传统药物开发方法通常耗时、费力且成本高昂,而GenAI技术(包括GANs、VAEs、GPT和扩散模型)可缓解这些问题。这些方法能够处理大量复杂数据,同时产生精确结果。此外,GenAI可用于创建药物化合物,加速潜在治疗候选物的识别,同时降低药物开发的相关成本和时间。政策制定者必须调整现有规则,以应对GenAI在药物开发中涉及的隐私、安全和伦理问题。
1 引言
糖尿病是一种慢性疾病,可能由胰腺胰岛素产生不足或身体无法适当使用胰岛素来控制血糖浓度引起[1]。这种疾病影响全球数百万人,晚期检测可导致心血管疾病、肾衰竭和神经损伤等严重并发症[2]。最重要的是,它是医院再入院的主要原因,影响医院声誉和相关医疗成本[3]。糖尿病治疗和控制的主要重点在于生活方式调整、血糖监测和系统性药物管理[2]。近年来,技术已在医疗保健领域,特别是通过智能技术[6](包括物联网[7]和量化自我技术[2])管理控制慢性疾病如糖尿病方面站稳脚跟[4,5]。
尽管有这些创新,新糖尿病药物的发现仍受到传统药物发现方法缓慢、昂贵和资源密集的阻碍[8]。GenAI似乎是糖尿病护理药物发现中的新而强大的工具[9]。GenAI是一种基于训练数据生成新内容的人工智能类型。它识别大量数据中的模式,然后应用其学习产生类似人类的原创输出[10]。GenAI能够撰写文章、回答问题、创建逼真图像、作曲,甚至促进药物发现等科学研究[11]。在药物发现中,GenAI能够实现新型分子结构的创建、提出新药物的潜在候选物、建议药物再利用以及微调现有药物。它通过提高药物设计的效率和准确性来转变传统方法[8]。此外,这减少了药物发现所花费的时间和资金[12]。研究[13]指出速度和效率是两大主要优势。此外,[11,14]指出个性化医疗和减少时间线是GenAI在药物发现中的其他重要优势。
尽管有关GenAI在药物发现方面的研究,但关于GenAI如何用于个性化医疗的文献有限。基于此背景,本系统性文献综述旨在通过回答以下研究问题来审查GenAI在药物发现中的当前应用和效果:GenAI技术在药物发现过程中的有效性如何;生成式AI如何增强新型药物候选物的识别;以及生成式AI的主要限制如何影响其在药物发现中的应用?
2 方法论
本研究的文献分析遵循系统评价和荟萃分析优先报告条目(PRISMA)指南所概述的步骤,包括识别、筛选和资格评估。
2.1 数据库搜索策略
为收集相关信息,研究人员使用特定关键词搜索以下数据库:Google Scholar、Springer、Science Direct、IEEE和PubMed。搜索集中在2020年至2025年间发表的文章。搜索于2024年11月15日进行。使用以下搜索字符串探索数据库:(("Generative AI" OR "GenAI" OR "Generative Model" OR "Generative Adversarial Network" OR "GAN" OR "Large Language Models" OR "LLM") AND ("Drug Discovery") AND ("Diabetes*" OR "blood glucose" OR "blood sugar"))
2.2 纳入和排除标准
纳入标准基于:仅关注GenAI在药物发现中有效性的研究;2020年至2024年间发表的研究;以及仅以英语撰写的研究。相反,如果文章属于以下情况则被排除:非同行评审作品、社论、灰色文献、预印本和评论。
2.3 资格评估和筛选
初始搜索获得228篇文章,即Google Scholar(79项研究)、Springer(32项研究)、Science Direct(45项研究)、IEEE(2项研究)和PubMed(70项研究)。去除重复后,考虑了150篇出版物并进行分析筛选。在摘要和标题筛选后,排除了100条记录,因为它们与研究的目标和目的不一致。剩余50篇文章作为全文阅读,并基于以下内容进行筛选:16篇因不相关被排除,7篇因范围有限被排除,12篇因未使用生成式AI算法被排除。
2.4 纳入结果
在对全文进行详细评估后,只有15篇符合本系统性文献综述的预定义纳入标准,并在图1中呈现。
3 结果
3.1 研究结果
表1展示了本研究的结果。
表1. 符合纳入标准的论文
| 作者 | 国家 | 研究目标 | GenAI技术 | 优势 | 挑战 | 模型准确性 |
|---|---|---|---|---|---|---|
| [15] | 中国 | 分析分子生成在精准药物设计中的进展 | ● DiffSBDD ● 强化学习 ● 基于片段的设计 |
● 提高速度和效率 ● 降低成本 |
数据集限制 | 生成类药物化合物的高准确性,高达0.82 |
| [8] | 中国 | 探索GAN和VAE在药物开发中的应用 药物再利用 |
● GAN ● VAE ● ORGAN模型 |
减少对动物的依赖 | 伦理问题 | 准确性一般较高,通常在0.75至0.90之间 |
| [9] | 瑞士 | 设计针对糖尿病通路(如GLP-1受体)的全新分子 | ● DiffSBDD ● DrugGPT ● Target Diff |
● 创建新型分子结构 ● 提高亲和力评分 |
模型需要高质量标注数据 | ● QED评分从0.36到0.612 ● Vina对接评分为−7.88 kcal/mol |
| [16] | 中国 | 开发基于GPT的新方法设计潜在配体 | ● 生成式预训练变换器(GPT-2) | ● 降低成本 ● 提高速度和效率 |
处理蛋白质结构的复杂性 | - |
| [17] | 英国 | 确定药物功效预测 | ● AlphaFold ● ChatGPT ● NLP |
● 提高速度和效率 | ● 结果缺乏可解释性 | 药物靶点相互作用预测的准确性为0.85 |
| [18] | 中国 | 实施药物再利用 | ● GPT ● GANs ● VAEs |
● 提高速度和效率 | ● 计算能力需求 | 观察到0.7至0.85的准确性 |
| [12] | 美国 | 开发新的深度GenAI模型生成分子结构 | ● CNN ● GAN ● VAE ● 解码器网络 |
● 快速生成新型分子 ● 降低成本 |
● 结果缺乏可解释性 | 提供0.75成功率的定量性能结果 |
| [19] | 印度 | 评述AI在药物发现中的应用 | ● Insilico药物设计 | ● 降低成本 ● 提高速度和效率 ● 药物再利用 |
● 结果缺乏可解释性 ● 伦理问题 |
- |
| [20] | 美国 | 提供药物发现中技术当前使用的清晰视图 | ● 全新药物设计 ● GAN ● 强化学习 |
● 扩大化学空间 | ● 数据集限制 | ● 唯一性成功率为0.90 ● 化学有效性为0.93 |
| [14] | 中国 | 高效展示紧凑、低维空间中的化学结构范围 | ● 条件RNN ● 深度学习 ● GNN ● Bicycle GAN |
● 快速生成新型药物候选物 ● 提高预测和准确性 |
生成药物候选物的有效性缺乏 | ● QED评分从0.484到0.563 ● Vina对接评分为−7.288 kcal/mol |
| [11] | 印度 | 评述在体外药物设计中的应用和成功 | ● 个性化医疗 ● SBDD ● LBDD |
● 提高速度和效率 ● 个性化医疗 |
大型数据集的计算需求 | - |
| [10] | 西班牙 | 分析GenAI在优化药物发现过程中的应用 | ● 深度学习 ● 分子对接 |
● 提高速度和效率 ● 提高预测和准确性 |
● 数据集限制 ● 监管挑战 |
- |
| [21] | 美国 | 研究GenAI在小分子药物生成中的使用 | ● 个性化医疗 ● GAN模型 ● 强化学习 ● 主动学习 |
● 缩短药物发现时间线 ● 个性化医疗 |
● 数据集限制 ● 结果缺乏可解释性 |
- |
| [13] | 塞浦路斯 | 评述和分析药物发现中的深度学习方法,重点在体内验证 | ● GANs ● VAEs ● NLP ● 深度学习 |
● 提高速度和效率 ● 提高预测和准确性 |
● 结果缺乏可解释性 ● 耗时 |
观察到0.76至0.87的模型准确性 |
| [10] | 韩国 | 确定用于药物再利用的GenAI技术 | ● GANs ● VAEs ● 强化学习 |
● 提高速度和效率 ● 降低成本 |
● 计算能力需求 ● 高质量数据集的有限可用性 |
模型性能评估达到0.76的准确性 |
3.2 出版趋势和来源
图2显示了2020年至2025年间关于GenAI在药物发现中应用的15篇文章的出版趋势。数据显示2020年有2篇出版,2021年1篇,2022年3篇,2023年3篇,2024年6篇,表明自2022年起研究稳步增加。这一增长可能是由于技术进步、更多研究资金以及对GenAI在改善药物发现中作用的认识提高所致。本系统性文献综述中选定的15项研究确定了三个利用GenAI进行药物发现的大陆。亚洲以8项研究领先,其次是欧洲4项研究,美洲3项研究。最后,非洲和大洋洲在这项技术方面的参与有限。
3.3 生成式AI在药物发现过程中的应用
所综述的研究考察了GenAI在药物发现中的应用;帮助制药领域通过更快地生成新型分子(6项研究)、促进现有药物的药物再利用(3项研究)、个性化医疗(2项研究)以及提高药物功效预测(4项研究)。
3.4 药物发现的GenAI技术
所综述的研究突出了3种常见的GenAI技术。研究表明,GAN(8项研究)是用于分子生成的最突出技术,因其在探索广阔化学空间方面的高效率。其他显著技术包括VAEs(5项研究)和扩散模型(3项研究),而GPT(2项研究)也为药物发现中的分子生成提供了高效结果。这些发现突出了药物发现过程中采用的不同方法。
3.5 糖尿病药物发现中GenAI技术的优势
所综述的研究确定了GenAI技术在药物发现中的四个关键优势:提高速度和效率(9项研究);降低成本(5项研究)成为常见优势,突显了GenAI在加速药物开发的同时降低早期研究成本的能力;提高预测准确性(3项研究)改善了药物功效评估的可靠性;以及个性化医疗(2项研究),允许基于个体患者特征量身定制治疗方法。
3.6 药物发现时间线
所综述的研究显示了传统药物发现与GenAI方法之间的时间差异。通过传统手段的药物发现过程大约需要60个月,而GenAI方法大约在18个月内给出结果。这强调了GenAI在药物发现中的辅助能力。
3.7 平均模型准确性
所综述的研究突出了三种药物发现技术(DiffSBDD、GAN和VAEs)的平均模型准确性。DiffSBDD的准确性达到82%以上的最高值,高于GAN的后续值,后者也表现出强大的性能。VAEs仅获得中等准确性,但仍取得了良好表现。此比较显示了这些技术在药物发现过程中的功效差异。
图3. 类药性和亲和力评分
图3比较了三种技术(DiffSBDD、GAN和VAEs)的类药性和亲和力评分。总体而言,DiffSBDD在类药性和亲和力评分方面均优于GAN和VAEs,表明其在药物发现环境中可能是一种更有效的技术。
3.8 糖尿病药物发现中GenAI技术的挑战
所综述的研究确定了GenAI在糖尿病药物发现中的四个主要挑战:结果缺乏可解释性(6项研究)和数据集限制(6项研究)成为主要挑战,因为许多模型的黑箱性质阻碍了可解释性,而获取不同、高质量的数据集通常受到限制。计算能力(4项研究)由于资源密集性,对小型机构构成了主要技术障碍;而与偏见和可能滥用相关的伦理问题(2项研究)进一步使实施复杂化。
4 讨论
本节将对研究结果进行系统分析,以指出研究空白所在,以及未来仍有充分空间的领域。
4.1 生成式AI在药物发现过程中的应用
从所综述的研究中得出了GenAI在药物发现中的四种可能用途。例如,[15]提出了GenAI用于精准药物设计中的分子生成,旨在生产针对特定条件的药物候选物。同样,[9]谈及GenAI用于针对糖尿病通路(例如GLP-1受体)的从头设计分子。[11]的研究综述了药物发现中体外药物设计方法的应用和成功,包括现有药物的再利用。因此,这些研究强调了计算方法能够搜索已知药物的新治疗应用,从而加速药物发现开发,同时为临床医生提供新的治疗选择。
[12,16]和[21]的研究一致认为GenAI在药物发现中的应用主要针对药物的小分子成分。这种方法具有优势:它克服了先导化合物发现和优化中的时间障碍,因为GenAI可以迅速搜索庞大的分子空间并预测新型化合物的性质。因此,这提高了发现良好药物的可能性,从而减少了药物发现过程的时间和费用[15]。[13]的研究强调了GenAI在药物发现中的应用,特别是在体内药物测试方面。这种测试检查实际效率、功效和药物安全性。特别值得注意的是[8]的研究,该研究讨论了将GenAI用于药物发现中的药物再利用。这有助于研究人员识别现有药物的新治疗适应症,与从头创建全新药物相比,缩短了发现时间和成本。[11,18]的研究一致认为GenAI工具正被用于药物再利用,其中GPT等工具的理论可能性可以转化为实际科学研究。换句话说,以GPT为代表的GenAI技术为加速和提高药物再利用过程的效率提供了巨大前景。关于GenAI辅助药物发现,[17]提出了药物性能预测。这种方法使用先进算法分析大型数据集,使研究人员能够比传统方法更快地找到潜在药物候选物。此外,[10,19]突出了GenAI在药物发现中的几种应用,如靶点识别、ADMET、命中识别、先导优化和药物重新定位。
4.2 药物发现的GenAI技术
生成对抗网络(GANs)用于药物发现领域,以创建量身定制以提供特定属性(如结合亲和力和毒性)的新型类药物分子[8]。GANs已在药物发现中成功应用于设计PPARγ抑制剂和AMPK激活剂[20]。他们的研究阐明了GANs模拟复杂分子结构和分子相互作用的能力,从而可以针对葡萄糖代谢的关键通路设计新型化合物。另一项研究还描述了GANs在小分子药物发现中的应用。他们强调模型的可解释性仍然是一个重大障碍,因此对GenAI在药物发现中的实际应用提出了严重关切[19]。
变分自编码器(VAEs)因其能够执行化学空间分析和性质预测而受到好评。这有助于设计针对糖尿病特异性通路的药物[10]。[12]使用VAEs进行药物发现并观察到VAEs可以快速生成新型分子,从而表明其加速药物发现和虚拟筛选的潜力。尽管缺乏可解释性,VAEs仍应被视为帮助加速糖尿病有效疗法开发的工具[11]。
基于扩散的AI模型(DiffSBDD)作为GenAI模型运行,采用扩散过程生成具有预期结合亲和力和对特定蛋白质靶点特异性的新型小分子配体[9]。DiffSBDD模型还被用于设计针对特定生物通路的从头化合物,从而实现更精确和有效的治疗(例如GLP-1受体激动剂或SGLT2抑制剂)[10]。
生成式预训练变换器(GPT)。根据[16],使用了DrugGPT,这是一种基于GPT的动态模型,其中实施了配体设计方法,探索化学空间并为特定蛋白质发现配体。因此,实现了针对SARS-CoV-2目标识别以揭示COVID-19致病机制,并通过文献挖掘识别更多治疗目标。然而,这需要依赖于高质量数据集的可用性[20]。
4.3 糖尿病药物发现中GenAI技术的优势
提高速度和效率:几项文献研究指出速度和效率是GenAI在药物发现中的主要优势。[15]的研究指出GenAI加速了分子设计,从而更快地获得药物候选物。同样,[12]指出其能够快速生成新型分子,从而增加药物发现的潜力并支持虚拟筛选等领域。另一项研究[19]描述了GenAI如何加速药物发现,提高预测准确性并降低成本,使制药行业的流程更加简单。
降低成本:[16]的研究指出GenAI可以有效分析化学空间,从而减少传统实验方法所涉及的时间和成本。此外,[17]提到GenAI还可以实现更快、更准确的靶点识别,从而进一步降低传统研究的成本。此外,[12]提出GenAI由于减少了试错实验室测试,降低了成本,使GenAI成为药物发现中成本最低的方法之一。
提高预测准确性:[9]指出GenAI通过提高亲和力评分来提高预测准确性。研究[19]补充说GenAI在加速药物发现的同时提高了预测准确性并降低了成本。此外,[14]表明GenAI可以快速生成具有更好结合亲和力和类药性的新型药物候选物,这是增强药物发现精度的最佳方法。
个性化医疗:[11]的研究提到GenAI能够分析极其庞大的数据集,如遗传和临床数据,以定位个性化治疗的靶点。同样,[21]认为这种方法通过降低不良反应风险提高了治疗效果,使治疗对个体而言更有效、更安全。
4.4 糖尿病药物发现中GenAI技术的挑战
模型可解释性:大多数GenAI模型在某种程度上作为黑箱运行,对预测的解释和解释可能性很少。这些问题给监管和临床实施带来了挑战[22]。[16]的研究强调了如何使用DrugGPT成功发现SARS-CoV-2的药物候选物,但遇到了结果可解释性的障碍[23]。这种缺乏透明度阻碍了识别安全问题、监管机构和整个评估过程的潜力。[13,21]的研究结果由于无法解释生成药物候选物所依据的理由,未能推进到临床试验。因此,食品药品监督管理局(FDA)等监管机构从未批准这些可能有前途的药物。
数据集限制和数据质量:另一个挑战在于GenAI中使用的数据集质量。个性化医疗特征的缺失限制了其为特定患者特征提供定制治疗选择的能力。高质量数据的可用性对于当代GenAI药物发现系统的运作至关重要;因此,低质量数据可能会降低其预测价值和功效。数据集成有限通常源于对孤立数据集的依赖。根据研究人员[9],如果任何数据集质量低下或不完整,它们可能导致不准确的预测并限制药物候选物的价值。此外,管理不善的数据集对GenAI模型的功效构成了更大威胁,正如[15]所证实的那样。
计算能力:[11]的研究强调了GenAI在药物发现中使用大规模计算能力的有用性,它处理来自不同来源的复杂数据和大型数据集。同样,[22]也提出了关于处理能力的担忧。如果计算能力要求更高,研究人员可能难以分析复杂数据集,使整个过程变慢并阻碍开发和发现有效药物的机会[23]。
伦理问题:[19]的研究提出了关于数据隐私和知情同意以及GenAI结果中潜在偏见的重大关切,以至于研究完整性本身受到质疑。不符合HIPAA指南可能会带来严重的监管问题,增加了影响GenAI在药物发现中使用的伦理问题[18]。
4.5 研究意义
本研究展示了制药公司如何利用GenAI工具来提高效率并缩短药物开发的时间线。研究人员和行业领导者应致力于培训计划,以帮助整合GenAI并促进AI开发者和生物化学家之间的合作。监管机构需要更新政策,以解决伦理问题,确保数据隐私,并在促进创新的同时提高GenAI的透明度。本研究讨论的GenAI模型在使用分子模拟、处理大型数据集以及使用GANs、VAEs和深度学习(DL)等算法方面在药物发现中显得非常有前景。然而,它们在个性化方面有所欠缺,有时可能导致个别情况下的产品无效。因此,迫切需要开发提供定制解决方案的新模型,从而改善健康结果。
5 局限性、未来工作和结论
本系统性文献综述承认了出版截止日期和语言等局限性,这些影响了研究结果的全面性。对在不同医疗保健环境中扩展和整合GenAI的困难尚未得到足够审查,从而限制了其在药物发现中的应用和实用性。在解释研究结果及其对所综述工作的影响时应考虑这些局限性。未来研究应侧重于确定改进数据质量、提高算法可解释性以及评估GenAI与传统药物发现方法整合的方法。此外,创造机会进行研究,以基准测试和分析GenAI与传统方法相比的成本效益,这将为药物发现中的最佳实践提供教训。在将GenAI与能够分析患者数据并基于个人健康特征、偏好和对先前治疗的反应生成个性化治疗方案的智能技术整合方面,也存在研究空白。因此,GenAI技术在改善药物开发方面显示出巨大前景。尽管存在数据质量、模型可解释性和与现有流程整合等挑战,但这些技术改变药物发现的潜力是显而易见的。随着该领域不断发展,解决这些挑战对于实现GenAI在制药和糖尿病治疗中的全部益处至关重要。
【全文结束】


