药物发现传统上是一个缓慢、耗时、昂贵且容易失败的过程,但人工智能(AI)和机器学习(ML)有望彻底改变这一现状。
人工智能正在通过其分析海量数据集的能力彻底改变药物发现。尤其是在早期药物发现阶段,AI能够比传统方法更有效地识别潜在的药物靶点,从而加速药物开发的初始阶段。通过快速筛选大量数据,AI帮助科研人员在短时间内找到有潜力的候选分子。
根据GlobalData在2025年4月发布的一项调查,AI被认为是当今企业最具颠覆性的技术之一,包括医疗行业在内,73%的受访者表示,AI将显著或略微地颠覆他们的行业[i]。实际上,在2024年,诺贝尔化学奖授予了DeepMind团队,以表彰他们在AlphaFold[ii]上的工作——这是一种能够准确预测蛋白质结构的AI系统。诺贝尔化学委员会主席Heiner Linke表示:“从氨基酸序列预测蛋白质结构……开辟了巨大的可能性。”
一旦确定了药物靶点,AI在整个药物开发过程中继续发挥关键作用。AI模型可以预测分子间的相互作用,并协助设计针对特定治疗目标的新化合物。例如,生成式AI被用来创建符合特定标准的小分子或蛋白质,从而增强药物设计过程[iii]。
AI的应用还延伸到了临床试验阶段,目前已用于改进试验设计、可行性研究、站点选择、患者招募和保留,以及数据分析和监管提交与审查。2023年的一项研究表明,一款基于大型语言模型(LLMs)的临床试验患者匹配工具能够将医生的预筛查时间减少90%[iv]。
将AI整合到药物发现过程中有可能通过提高效率显著降低成本。一些专家认为,达到一期临床试验结果的成本可能从超过1亿美元降至约7000万美元[v],从而使创新疗法的研发更具成本效益,同时将通常需要四到五年的探索性研究阶段压缩至不到一年[vi]。这对于治疗选择有限的疾病来说,是一项重大进步。
然而,AI的全面潜力受到诸如高质量数据集需求、监管障碍甚至缺乏人类专业知识等挑战的限制。尽管监管机构正在通过制定指南并与行业利益相关者合作来应对这些挑战,但仍存在一些问题,特别是在医疗保健中AI技术的伦理影响方面。此外,训练AI模型所需的生物数据往往昂贵且耗时,这也阻碍了AI的广泛应用。
早期药物发现
机器学习(ML)模型在早期药物发现中显著提高了效率,特别是在命中识别和先导优化方面,与传统方法相比具有明显优势。ML最显著的特点之一是其能够快速处理大量数据。在传统药物发现中,识别一个候选分子可能需要数年时间,并需要合成和测试数千种分子。根据GlobalData整理的公司文件[vii]显示,传统方法可能需要合成大约5000个分子并花费四到六年的时间才能找到一个有潜力的候选分子。
相比之下,ML模型可以在虚拟环境中筛选数十亿个分子,从而将实际测试的数量减少到仅几百个。这种能力使研究人员能够在一天内优先处理10亿个分子,而传统方法则需要100万天。GlobalData的药物数据库显示,目前已有40种再生医学疗法是通过AI发现或正在开发的[viii]。其中三种正在进行二期临床试验,包括Aspen Neuroscience的ANPD-001,该疗法目前正在进行二期人体临床试验,用于治疗帕金森病。在此过程中,AI和ML发挥了重要作用,细胞经过测试以确保其功能正常,其中包括基于ML的基因测试来评估细胞质量。
ML模型还可以采用主动学习技术,这使得对分子性质的预测更加准确。通过优先对分子进行基于物理的分析,研究人员可以更早地发现潜在问题,进一步提高效率并降低成本。
数据查询工具
生成式AI和数据分析与数据查询工具的结合显著提高了药物发现过程的效率和效果,通过加速化合物和靶点筛选并改进对生物活性和安全性的评估,从而促进现有药物的新用途识别。
基于AI的筛选方法,如高通量筛选(HTS),使研究人员能够快速评估大量化合物库。这种方法通过同时检查多个候选分子显著加速了先导化合物的识别。虚拟筛选、基于结构的药物设计和基于配体的药物设计工具通过预测化合物如何与生物靶标相互作用,有助于识别潜在的药物候选分子。
从各种数据库中收集大量数据的工具使研究人员能够更有效地评估化合物的安全性。通过分析毒性和药代动力学的历史数据,研究人员可以识别潜在的不良反应并相应地优化药物候选分子。利用先前测试过的药物候选分子的现有数据,研究人员可以探索新的适应症。这种双管齐下的方法既开发新候选分子,又“拯救”历史候选分子,从而降低了风险并提高了临床试验成功的机会。
训练AI模型
在药物发现中训练AI模型严重依赖各种类型的生物学和临床数据,重点在于多样性以减轻偏见。解决数据差距和偏见需要结合创新技术、开放数据实践和监管监督。在药物发现中训练AI模型最关键的数据类型包括生物学和临床试验数据、数字生物标志物以及多样化的人口统计数据。
生物学数据对于理解生物过程和药物相互作用至关重要,但生成此类数据通常缓慢且资源密集。临床试验数据,包括患者人口统计、治疗反应和结果,对于预测治疗反应和开发有效药物至关重要。数字生物标志物来源于数字行为干预和患者监测系统,提供了对治疗反应的洞察,并增强了AI模型的预测能力。
解决AI训练中的数据差距和偏见对于药物开发至关重要。策略包括数据增强、开源数据共享、微调技术、人机协作方法和监管框架。数据增强通过创建现有数据的变化来增加训练数据集的大小,而开源数据共享则允许更广泛地访问多样化的数据源。微调技术优先使用代表性训练数据来纠正偏见,而人机协作方法则在AI训练过程中引入专家反馈以识别和纠正偏见。
电子健康记录(EHRs)如何提供关键见解
Veradigm是一家领先的医疗保健数据和技术解决方案提供商,通过利用AI分析Veradigm网络内的去识别化电子健康记录(EHR)数据,捕获跨不同患者群体和地理区域的结构化数据。Veradigm的AI驱动方法还实现了从非结构化数据中可扩展的信息提取,为生命科学组织提供更深入、实时的患者体验和结果洞察。
Veradigm最近开发了一款基于AI的GLP-1聚焦真实世界数据库,旨在支持生命科学公司理解和优化治疗结果。通过先进的AI驱动数据整理,该平台从临床医生笔记中提取真实世界的见解,包括GLP-1治疗中断的原因,如不良事件和被认为无效的情况。它还识别标签外使用模式和可能影响治疗决策的相关共病。结合临床验证以确保数据的准确性和可靠性,Veradigm的解决方案提供了适合目的的证据,以加速研究并改善患者护理策略。
(全文结束)


