当前AI基础模型在药物发现中的应用(PDF) Michalik, R., Current AI Foundational Models in Drug Discovery (Jan2026)

环球医讯 / 创新药物来源:www.researchgate.net美国 - 英语2026-01-28 13:06:31 - 阅读时长36分钟 - 17939字
本文详细阐述了基础模型如何重塑药物发现领域,全面综述了从靶点识别到从头分子设计及数字孪生临床模拟过程中使用的主要AI架构。文章聚焦于三种常见的基础模型:用于化学语言(SMILES)的大型语言模型(LLMs)、用于分子图的图神经网络(GNNs)以及用于3D结构生成的扩散模型。文中深入讨论了当前最先进的AI药物发现模型——3D结构生成扩散模型的工作原理与应用,提供了药物发现与设计中使用的所有AI模型的详细时间线和综合列表,并分析了基础模型与概率算法的关系、优势挑战及未来发展趋势,对制药和生物技术开发者具有重要参考价值。
健康AI基础模型药物发现分子设计GNNs扩散模型LLMs数字孪生蛋白质结构预测药物靶点识别
当前AI基础模型在药物发现中的应用

摘要

本文阐述了基础模型如何重塑药物发现领域,并综述了从靶点识别到从头分子设计及数字孪生临床模拟过程中使用的主要AI架构。我们重点关注了三种常见的基础模型构建的AI应用:• 用于化学语言(SMILES)的大型语言模型(LLMs),• 用于分子图的图神经网络(GNNs),以及• 用于3D结构生成的扩散模型。文章包含了对当前最先进的AI药物发现模型——3D结构生成扩散模型的详细讨论,以及药物发现与设计中使用的所有AI模型的综合列表。

概要——药物开发的分析与实际应用性

斯坦福以人为本人工智能研究所(HAI)的基础模型研究中心(CRFM)于2021年8月创造了"基础模型"一词[16],定义为"在广泛数据上训练(通常大规模使用自我监督)、可适应(例如微调)到各种下游任务的任何模型"[17]。

在欧洲议会就欧盟人工智能法案的协商立场中,它将基础模型定义为"在大规模广泛数据上训练、设计用于输出通用性、并可适应各种不同任务的AI模型"。

这些共识定义清楚表明,AI"基础模型"可以包括在各种数据类型(如文本、图像、音频、视频或它们的组合(多模态))上训练的多种模型。

本文阐述了基础模型如何重塑药物发现领域,然后综述了从靶点识别到从头分子设计及数字孪生临床模拟过程中使用的主要AI架构。它将基础模型与LLMs和生成式AI进行了对比,概述了它们的训练流程(自我监督、微调、对齐),并总结了诸如多功能性、效率和可扩展性等优势,以及偏见、幻觉和计算成本等风险。

核心技术重点是目前在分子设计中常见的三类基础模型:

• 用于化学"语言"(SMILES/SELFIES)的大型语言模型(LLMs),使用Transformer架构进行反应预测、逆合成和从头分子生成。

• 包括等变图网络的图神经网络(GNNs),将分子和知识库视为图,用于属性预测、靶点-疾病链接发现和基于图的从头分子生成。

• 扩散和几何感知生成模型,通过迭代去噪2D/3D表示来生成口袋兼容配体和具有真实3D结构的蛋白质-配体复合物。

在讨论的AI模型中,最受强调的两类模型是基于Transformer的(LLMs/化学语言模型)和基于GNN或扩散的3D生成器,它们共同支撑了现代分子设计、对接和数字孪生式模拟的管道。

在组合化学家和药物设计者中最受关注的模型是扩散/几何感知生成模型。这种药物设计模型通过两阶段扩散过程生成首选的3D药物分子。

制药和生物技术开发者被鼓励深入理解基本组件,包括Transformer中的注意力机制和GNN/扩散架构中的消息传递或等变操作符,以便在评估或部署药物发现中的AI平台时做出明智选择。

引言

从本质上讲,人工智能技术基于基础模型,这些高度复杂的概率算法处理输入(提示,由人类或AI代理输入),并将输入简化为可与AI引擎(算法)相关的数值,仅在约束条件下根据AI计算机和数学科学家及工程师在AI模型发布前预训练时提供的信息,预测可能的响应。

AI不能思考。AI模型唯一能做的就是基于提示和预训练数据,识别和评估海量数据集之间的可能关系,并生成响应。

生成式AI与基础模型的区别

生成式AI和基础模型是不同但密切相关的。理解它们区别的最有帮助方式是将它们视为"引擎"与"功能":

• 基础模型是强大的预训练引擎;它是基于海量数据构建的底层技术,旨在进行适应

• 生成式AI是该引擎可以执行的主要功能,即创建新内容(如文本、图像或代码)的能力

因此,我们常用的AI应用在设计上可能有所不同,但本质上它们建立在三种常见的基础模型之上:

• 用于化学语言(SMILES)的大型语言模型(LLMs),

• 用于分子图的图神经网络(GNNs),以及

• 用于3D结构生成的扩散模型。

虽然药物发现AI基础模型可能在底层算法架构上有所不同,但它们都共享一个共同目标:设计一种分子(活性药物成分,API),该分子可以在体内与另一种分子结合,触发治疗效果。

治疗药物作用模式基础

更具体地说,治疗药物通过作为"配体"发挥作用,该配体以精确方式与通常位于细胞上或细胞内的特定受体(通常是蛋白质分子)结合。在结合过程中,配体触发受体和细胞的分子变化,激活所需的级联反应。这种结合类似于"锁钥机制",改变受体形状以激活或抑制特定的细胞、生化或电化学信号通路,最终产生治疗效果。

配体-受体复合物是通过非共价键相互作用(如氢键、疏水相互作用)实现的。分子对接是一种计算技术,用于预测最有利的结合方向("姿态")并通过模拟这种相互作用来估计结合强度(亲和力)。

药物-受体相互作用的关键机制:

• 激动剂(激活):药物与受体结合并触发生理反应,模拟天然激素或神经递质。

• 拮抗剂(抑制):药物与受体结合但不激活它。相反,它阻止天然物质结合,从而抑制细胞功能。

• 结合力:相互作用由离子键、氢键或静电"范德华"力等维持。

理想情况下,药物API分子应设计为足够紧密地结合,并在触发治疗反应所需的时间内保持结合,然后完整释放以进一步与其他靶向受体结合。治疗益处的持续时间直接与API在循环中的停留时间相关,通过"半衰期"测量("T"=最初给药的50%API将保持活性并在循环中)。这些参数中的每一个(对受体的亲和力、结合强度和半衰期)对药物治疗的成功都至关重要。

药物发现和设计中使用的AI基础模型算法专门设计和训练以最大化这些参数中的每一个。

理解AI基础模型的基石技术为更好地理解市场上众多应用提供了基础,特别是用于上市前药物、生物制品和医疗技术产品的应用。确定各种药物发现AI模型中哪一种最适合制药制造商的目的,对于创造下一个"突破性"药物产品至关重要。

什么是基础模型?

基础模型,有时称为基础模型,是经过海量数据训练的强大人工智能(AI)模型,可以适应各种任务。"基础模型"一词由斯坦福以人为本人工智能研究所(HAI)于2021年创造。

该技术为各行业提供了新的可能性,从简化软件开发到改善客户服务互动。

基础模型定义

AI基础模型是一种大规模预训练的机器学习模型,通常基于Transformer等神经网络架构,旨在作为各种下游AI任务的多功能起点。这些模型使用自我监督在海量、未标记和多样化数据集上进行训练,使其能够通过最少的微调或提示适应多种应用,如文本生成、图像识别和代码创建。从专用工具到适应性通用模型的这种转变是基础模型范式的标志。

基础模型与LLM的区别是什么?

"基础模型"和"大型语言模型"(LLM)这两个术语经常互换使用,但有一个关键区别。LLMs是基础模型的主要类型,但它们不是唯一类型。可以将其视为父子关系:所有LLMs都是基础模型,但并非所有基础模型都是LLMs。

关键区别在于它们所基于的数据类型。LLMs顾名思义,专门在海量文本和代码上训练。更广泛的"基础模型"类别还包括在其他数据类型(如图像、音频和视频)或它们的组合(多模态)上训练的模型。

生成式AI与基础模型的区别是什么?

生成式AI和基础模型是不同但密切相关的。理解它们区别的最有帮助方式是将它们视为"引擎"与"功能":

• 基础模型是强大的预训练引擎;它是基于海量数据构建的底层技术,旨在进行适应

• 生成式AI是该引擎可以执行的主要功能,即创建新内容(如文本、图像或代码)的能力

虽然大多数流行的基础模型用于生成任务,但基础模型可以适应非生成目的,如复杂的分类或分析。因此,并非所有基础模型本质上都是生成式的,但它们是推动当前生成式AI应用浪潮的关键技术。

基础模型有哪些类型?

基础模型涵盖各种架构,每种架构都有其独特的优点和应用。以下是几种显著类型:

• 大型语言模型(LLMs):这些模型专门用于理解和生成人类语言,在翻译、文本摘要和聊天机器人互动等任务中表现出色。

• 多模态模型:在包括文本、图像和音频在内的多种数据类型上训练,这些模型可以分析和生成跨多种模态的内容。

• 生成对抗网络(GANs):GANs是一种涉及两个神经网络在零和游戏中相互对抗的基础模型。一个网络(生成器)创建新的数据实例,而另一个网络(判别器)评估其真实性。这种对抗过程导致生成越来越真实和复杂的内容。

• 计算机视觉模型:这些模型在图像数据集上训练,执行图像分类、物体检测和图像生成等任务。它们可以针对特定应用进行微调,如医学图像分析或自动驾驶车辆中的物体识别。

基础模型如何工作?

基础模型使用自监督学习在海量数据集上训练,这是一种利用无监督学习技术处理传统上需要监督学习(例如,使用人工输入标记数据)任务的机器学习方法。这有助于训练模型预测输入数据中被屏蔽或缺失的部分。当模型做出预测时,它学会了识别数据中的模式、关系和基础结构。

基础模型的训练过程与训练机器学习模型类似,通常涉及几个关键步骤:

数据收集和准备

• 收集大量且多样的数据集,代表模型在部署期间将遇到的真实世界数据分布

• 对数据进行预处理以去除噪声、异常值和不一致性;这可能包括数据清洗、归一化和特征工程等技术

模型架构选择

• 基于多种因素选择适当的模型架构,包括任务复杂性、数据类型和数量以及可用计算资源

• 用于自监督学习的常见模型架构包括卷积神经网络(CNNs)、循环神经网络(RNNs)和Transformer

自监督训练

• 使用自监督学习技术训练模型,涉及为数据创建伪标签并训练模型预测这些标签

• 这可以通过各种方法完成,如对比学习、掩码语言建模和拼图游戏

• 自监督训练使模型能够在不依赖人工标注标签的情况下学习数据的有用表示,而人工标注标签的获取可能既昂贵又耗时

微调

• 在模型使用自监督学习预训练后,可以针对更专业和特定任务的数据集进行微调

• 这涉及调整模型参数以优化目标任务的性能

• 微调帮助模型适应任务的特定要求并提高其整体性能

对齐和安全训练

• 在预训练和微调后,大多数最先进的模型会经历一个对齐阶段,以确保其输出有用、无害并与人类意图一致

• 这一关键步骤通常使用人类反馈强化学习(RLHF)和直接偏好优化(DPO)等技术,人类评审员对模型的响应进行评分,以引导其走向更理想的行为

评估和部署

• 一旦模型训练和微调完成,就会在保留的测试集上评估其性能

• 如果模型满足所需的性能标准,它可以部署到生产环境中,用于解决实际问题

使用基础模型的优势

基础模型为企业和开发者提供了几个潜在优势:

多功能性

基础模型可以适应各种任务,消除了为每个特定应用训练单独模型的需要。这种适应性使它们在各个行业和用例中具有价值。

效率

使用预训练的基础模型可以显著减少开发新AI应用所需的时间和资源。微调预训练模型通常比从头训练模型更快更高效。

准确性

由于在海量数据集上进行了广泛训练,基础模型可以在各种任务上实现高准确性,优于在较小数据集上训练的模型。

成本效益

通过减少对大量训练数据和计算资源的需求,基础模型可以为开发AI应用提供具有成本效益的解决方案。

创新

基础模型正在推动AI领域的创新,使开发新的、更复杂的AI应用成为可能。

可扩展性

基础模型可以扩展以处理大型数据集和复杂任务,使其适合要求苛刻的应用。

基础模型的挑战和风险

尽管有上述优势,基础模型仍面临用户和开发者必须应对的重大挑战:

• 偏见和公平性:基础模型可能会继承并放大其海量训练数据中存在的社会偏见,导致不公平或有偏见的输出

• 幻觉:模型可能会生成听起来自信但事实错误或无意义的信息,这种现象称为"幻觉"

• 高计算成本:训练这些模型需要巨大的计算能力和能源,引发了环境和财务方面的担忧

基础模型示例(Google、OpenAI、Anthropic、Meta、Mistral)

基础模型生态系统充满活力和竞争性。以下是一些来自主要行业参与者的最具影响力示例:

• Google:以Gemini系列闻名,这是一系列强大的多模态模型(Gemini 2.5 Pro是领先示例),以及Gemma,一个面向开发者的开源、轻量级模型系列;Google还开发了专门模型,如用于文本到图像生成的Imagen和用于视频生成的Veo

• OpenAI:GPT(生成式预训练Transformer)系列的开发者,包括广泛使用的GPT-4

• Anthropic:专注于AI安全,开发了Claude系列模型;Claude 3系列(包括Opus、Sonnet和Haiku)以其大上下文窗口和强大的推理能力而闻名

• Meta:开源AI的主要倡导者,Meta开发了Llama系列;Llama 3是一个开源模型,加速了整个社区的创新

• Mistral AI:一家欧洲公司,通过高性能的开源和商业模型(如Mistral Large和使用专家混合(MoE)架构实现更高效率的开源Mixtral模型)获得了显著关注

Google Cloud如何使用基础模型?

Google Cloud提供了一个端到端的企业平台Vertex AI,旨在帮助组织访问、自定义和部署基础模型以用于实际应用。该策略建立在提供选择、强大工具和集成基础设施的基础上。

以下是Google Cloud使用基础模型的方式:

• 多样化和开放的模型生态系统:通过Vertex AI模型花园,Google Cloud提供了超过130个基础模型的全面库。这包括Google自己的尖端模型(如用于多模态任务的Gemini系列和用于开源、轻量级开发的Gemma),以及来自Anthropic(Claude)、Meta(Llama)和Mistral等合作伙伴的流行第三方和开源模型。这使开发者能够根据其特定的成本和性能需求选择最佳模型。

• 自定义和基础工具:Vertex AI提供了一套完整的工具,超越简单的提示。通过生成式AI工作室,团队可以测试和调整模型。一个关键特性是将模型与组织自己的企业数据连接的能力。这将模型的推理能力与其特定数据源联系起来,显著减少幻觉,使响应在事实和相关性上保持一致。

• 构建AI代理和应用程序:Google Cloud专注于帮助开发者构建复杂的AI应用,而不仅仅是聊天机器人。通过Vertex AI代理构建器,组织可以创建和部署用于客户服务、内部帮助台和其他业务流程的对话AI代理。

• 将生成式AI嵌入工作流程:基础模型正直接集成到企业已使用的Google Cloud服务中。例如,Gemini代码助手充当AI驱动的开发者助手,帮助更快地编写、解释和测试代码,而BigQuery中的功能允许在数据仓库内进行AI驱动的数据分析。

基础模型与概率算法的关系

基础模型(FMs)是大规模预训练的AI系统,如GPT-4、BERT或Stable Diffusion,它们作为生成式AI应用的支柱。它们与复杂概率算法的关系是基础性的:FMs本质上是概率引擎,使用深度学习来学习海量数据集的基础统计结构,使其能够计算序列中下一个项目(单词、像素或音符)的最可能情况。

关系:作为概率引擎的基础模型

基础模型在传统意义上并不"知道"事实。

相反,它们映射高维概率模式和关系,以高精度预测输入提示的最可能延续。

• 学习到的概率分布:在训练过程中,FMs消耗大量、多样且通常未标记的数据集。通过自监督学习,它们构建了一个世界模型,计算各种项目在上下文中出现的概率。

• 预测输出:当用户提供提示时,模型使用这些学习到的概率分布生成输出,基于统计可能性选择下一个元素。

• 上下文依赖性:算法考虑生成的整个历史(提示加上所有先前生成的标记),为下一个标记计算新的概率分布,导致每个预测影响所有后续预测。

概率算法的关键组件

这些模型采用几种先进的、高度复杂的算法来管理此概率过程:

• Transformer(自注意力机制):Transformer是基于文本的FMs的主要架构。它们使用自注意力计算序列中每个单词相对于其他单词的"权重"(概率),无论它们相距多远。

• 生成对抗网络(GANs):一对网络(生成器和判别器)相互对抗训练,计算数据是"真实"与生成的概率,通常用于计算机视觉。

• 扩散模型:用于图像生成,这些模型学习逆转向数据添加噪声的过程,有效地从纯噪声预测图像结构的概率分布。

• 采样技术:为了避免单调、重复的输出,模型使用算法(如从概率分布"采样"而不是总是选择最高概率单词(贪婪解码)),通常由"温度"参数控制。

为什么这种关系很重要

对复杂概率而非刚性规则的依赖允许几个关键特性:

• 生成多功能性:由于它们在概率分布上运行,它们可以针对开放式提示创建新颖、独特和类似人类的内容。

• 适应性:同一模型可以适应(微调)各种不同的任务,如编码、写诗或医学图像分析。

• 涌现行为:随着这些模型规模的增加,它们通过分析海量非结构化数据中的统计相关性,发展出新的、意想不到的能力(例如,上下文学习)。

• "幻觉"问题:由于模型优先考虑最可能的下一个单词而非严格准确性,它们可能生成令人信服、语法正确但事实错误或"幻觉"的答案。

概要

基础模型充当框架("什么"),复杂概率算法充当机制("如何"),其中Transformer和自监督学习使这些模型能够以高连贯性进行学习、预测和生成。

生成对抗网络和药物发现中使用的其他AI模型

生成对抗网络(GANs)在分子设计和药物发现中很重要且非常活跃,但它们只是几种主要工具之一(例如,序列模型、VAEs、扩散模型、LLMs),而不是主导或唯一选择。

GNNs在药物发现中的应用

在药物发现中,GNNs在分子或生物系统自然为图的任何地方都特别强大。

GNN的常见角色包括:

• 使用分子图(而非指纹或描述符)进行分子属性预测(效力、ADMET、毒性)。

• 在生物医学或知识图上进行药物-靶点-疾病链接预测(重新利用、适应症扩展)。

• 通过结合药物分子图与组学数据(例如,癌细胞系基因表达)预测药物反应。

• 从头分子图生成(GraphINVENT风格、GraphAF等),其中模型逐原子/键构建新分子。

文献计量和评论工作将GNNs描述为药物发现中许多图结构问题的快速增长、最先进的类别,不是小众的,但它们同时注意到扩散模型、基于语言的模型和其他生成架构的平行增长。

分子设计中常用的其他AI模型

评论明确指出,现代管道混合了多种模型类型。

其他主要家族包括:

• 序列/语言模型(RNNs、SMILES或SELFIES上的Transformer)用于从头分子生成、反应预测和合成规划。

• VAEs和GANs用于潜在空间探索和小分子的分布匹配生成。

• 几何/3D深度学习模型(包括扩散模型)用于蛋白质-配体对接、姿态预测和3D从头设计。

• 大型语言模型和多模态LLM-GNN系统用于知识挖掘、假设生成和结合文本与图的推理。

因此,GNNs是"一流公民",特别是对于图结构化学/材料问题,但它们与这些其他架构共存并得到补充。

GNNs使用的其他领域

GNNs是通用图学习机器,在分子设计之外被广泛使用。

代表性用例:

• 社交和信息网络:朋友推荐、社区检测、影响力预测。

• 推荐系统:用于产品、电影或内容推荐的用户-项目交互图。

• 知识图:用于搜索、问答和实体推荐的节点分类和链接预测。

• 交通、运输和时空网络:道路或车辆网络中的交通流量预测、路由和控制。

• 材料科学:从原子或晶体图预测材料属性、稳定性和合成路线。

• 图生成和组合优化:生成合成图,并近似解决TSP或路由等问题。

简而言之,GNNs是一种多功能架构家族,用于关系重要的许多领域,药物和材料应用特别突出但不是唯一的。

药物发现中的常见AI基础模型

AI基础模型,特别是生成式AI和基于Transformer的架构,正在通过预测蛋白质结构(例如AlphaFold)和生成新型分子结构来加速药物发现。

关键类型包括

• 用于化学语言(SMILES)的大型语言模型(LLMs),

• 用于分子图的图神经网络(GNNs),以及

• 用于3D结构生成的扩散模型。

药物发现中的常见AI基础模型

• 基于Transformer的模型(LLMs):类似于自然语言处理,这些模型分析化学序列(SMILES字符串)以理解化学"语言",如ChemBERTa和ESM。

• 生成模型(VAE、GAN、扩散):

o 扩散模型:对于生成具有精确原子坐标3D分子至关重要,如用于蛋白质的RFdiffusion和用于3D分子结构的EDM。

o 变分自编码器(VAEs)和生成对抗网络(GANs):用于探索大型化学空间并生成具有所需属性的新化合物。

• 图神经网络(GNNs):这些模型将分子视为图,这对于表示原子连接性和分子结构更为优越,包括等变图神经网络(EGNNs)。

• 蛋白质结构预测模型:

o AlphaFold/AlphaFold3:预测高精度3D蛋白质结构、相互作用和与配体的结合。

o RosettaFold:类似于AlphaFold,用于预测蛋白质-蛋白质复合物和3D结构。

应用

• 从头分子设计:从头开始创建针对目标属性优化的新分子。

• 虚拟筛选:评估数千种潜在化合物与靶点的结合亲和力。

• 蛋白质和抗体设计:为特定(有时是以前不可成药的)靶点设计新型生物制品。

• 属性预测:使用DeepDTA等模型预测生物活性和毒性。

LLM vs GNN:不同的数据模态(顺序/文本 vs. 关系/图)

LLMs和GNNs都是先进的深度学习架构,从现代AI的角度来看,它们充当基础的、预训练的模型,能够实现广泛、适应性强的智能。两者都利用大规模数据预训练来学习复杂的结构表示,然后适应下游任务,尽管它们侧重于不同的数据模态(LLMs的顺序/文本 vs. GNNs的关系/图)。

LLM与GNN中AI术语的共同点

• 深度学习基础:两者都基于旨在处理复杂、高维数据的神经网络。

• 预训练与适应:两种范式都涉及在海量数据集上预训练,使模型获得通用能力,然后微调以适应特定任务。

• 表示学习:它们被设计为学习输入数据的丰富潜在表示(例如,LLMs的文本语义关系,GNNs的图结构依赖关系)。

• 涌现能力:两种类型的模型都表明,当显著扩展时,它们表现出未明确编程的能力。

LLM和GNN模型是否被视为基础AI模型?

• LLMs:是的,LLMs被认为是基础模型的主要类型,在海量数据上训练,可适应各种下游任务。

• GNNs:虽然传统GNNs是为特定图类型设计的,但新兴的图基础模型领域寻求创建可在不同图结构上泛化的大型预训练GNNs,将它们置于同一类别中。

本质上,虽然LLMs(如GPT)专用于语言和顺序数据,但GNNs(如图Transformer)是关系数据的基础,但两者都作为强大、可重用和适应性强的AI骨干。

GraphRAG模型如何用于增强药物发现和设计AI模型

如今,AI知识图和Graph-RAG用于分子设计工作流程周围,但它们通常不作为直接生成新型分子结构的主要引擎。

它们的主要角色是靶点/适应症推理、重新利用和决策支持,而不是从头分子设计。

知识图在药物发现中的应用

制药业中的知识图通常表示基因、蛋白质、疾病、通路、化合物和临床表型等实体,然后学习或查询它们之间的关系。

当前高价值应用包括:

• 靶点识别和优先级排序(例如,链接基因、通路和疾病)。

• 通过药物-疾病或药物-靶点边上的链接预测进行药物重新利用和适应症扩展。

• 安全性和药物警戒推理(药物-药物相互作用、副作用、多药风险)。

在这些用例中,知识图约束和解释决策,但图通常不是逐原子生成新的化学图。

Graph-RAG在此空间中的作用

Graph-RAG是RAG的演变,从图结构或知识图数据中检索,然后基于检索到的图邻域对生成模型(通常是LLM或相关模型)进行条件设置。在药物发现中,早期的Graph-RAG工作重点是:

• 将药物、靶点、通路和患者数据连接起来,以加快假设生成和风险评估。

• 作为异构生物医学数据上的"推理和上下文层",提高AI辅助决策的可解释性和可追溯性。

再次强调,这主要是在分子设计的上游或下游(例如,设计什么以及在哪里集中),而不是核心生成化学模型本身。

从头分子设计的实际实现方式

现代从头设计模型将分子表示为图,然后使用图神经网络(GNNs)或其他生成架构生成新的分子图。

示例:

• GraphINVENT等基于GNN的分子生成平台,逐键构建分子。

• 基于结构的药物设计模型使用RAG风格的片段检索(例如,Rag2Mol)提出口袋兼容分子,但此检索来自分子片段库,而不是大型生物医学KGs。

• 使用神经图匹配的检索增强分子机器学习框架,以改进频谱预测或分子生成等任务,再次以分子结构对齐为中心,而不是KG推理。

在这些系统中,生成组件是图或几何感知模型;RAG-like想法有助于整合先前的化学结构或片段,但不是通过临床/生物知识图。

未来发展趋势(但尚未"常见")

关于RAG增强的药物发现多智能体系统的最新工作使用智能体协调规划、数据检索和评估,有时在图结构语料库上,但这些仍然是研究原型,而不是标准工业实践。

KG供应商的访谈和路线图强调,知识图在未来几年将越来越多地充当科学发现中的"信任层"和推理基质。

因此,在当前实践中:

• 知识图:常用于靶点发现、重新利用和安全性推理,主要不是用于直接分子生成。

• Graph-RAG:正在出现,用于生物医学图上的上下文检索和推理,仍处于早期阶段,尚未成为从头设计引擎的标准骨干。

文献中看到的说明性模式是"GNN/3D生成模型用于分子+可选的结构片段库RAG",而不是"Graph-RAG作为主要分子设计师的生物医学KG"。

药物发现、开发和优化的主要AI模型

药物发现团队现在倾向于几种在功能上与GraphINVENT等GNN平台相似或互补的主要生成模型家族:

➢ 下一代图生成器,

➢ 潜在空间VAEs,

➢ GANs,以及

➢ 特别是用于3D结构的扩散模型。

药物发现和分子设计中最常用的生成式AI模型

下一代图生成器

• (GraphINVENT2、其他GNN图生成器)

o GraphINVENT2通过强化学习引导的分子优化扩展了原始平台,

▪ 仍在分子图上逐键生成分子。

o 更广泛地说,基于GNN的分子生成模型(消息传递架构、原子/键级操作)仍然是直接生成有效、多样化分子图的领先方法。

VAE-based分子生成器

• 变分自编码器(VAE)

▪ 将分子映射到连续潜在空间,然后解码新分子,

▪ 从而实现平滑的属性条件优化和支架形态。

• 在实践中,化学信息学团队单独使用VAEs,也在混合框架中使用(例如,VAE+GAN、用于DTI的VAE+MLP),以生成具有可调属性的合成可行分子。

GAN-based生成器

• 生成对抗网络(GAN)

o 通过对分子特征或学习嵌入的对抗训练生成器vs判别器,生成结构多样的化合物。

• 正在探索混合VAE-GAN框架用于药物-靶点相互作用(DTI)任务,其中生成的分子输入到下游结合或活性预测器中。

扩散模型(2D/3D;非常活跃的领域)

• 扩散模型已成为从头药物设计的首选类别,特别是用于3D分子结构和蛋白质-配体复合物生成。

• 它们从随机噪声迭代去噪为分子,最近的工作显示在属性条件生成、构象生成和围绕蛋白质口袋的基于结构的设计上表现出色。

潜在3D/几何感知模型

• 一些较新的方法(例如,调查中描述的GeoLDM风格方法)

▪ 首先将分子几何编码为低维潜在空间,

▪ 然后在那里运行扩散或其他生成过程,以提高效率和更好的条件控制。

这些家族的概念比较

方法类型 表示焦点 在发现管道中的典型用途 与GraphINVENT风格GNNs的关系
GNN图生成器 分子图(原子/键) 直接从头2D图生成,支架/系列扩展 相同核心思想;GraphINVENT/GraphINVENT2是典范
VAE潜在生成器 分子的潜在向量 在潜在空间中进行属性引导的探索和优化 GNN编码器/解码器的替代方案;可以包裹GNN编码器/解码器
GAN-based生成器 指纹/嵌入 使候选集多样化,训练稳健的DTI框架 通常与VAEs或GNN编码器混合使用
扩散模型 3D坐标或潜在3D 3D配体设计,姿态/构象生成,口袋感知设计 概念上相似的生成角色,但在3D结构上更强
潜在3D几何模型 低维3D潜在空间 具有条件属性的高效3D从头设计 可以与GNNs堆叠(GNN到潜在,潜在中的扩散)

一种看待方式:GraphINVENT风格的GNN生成器在2D图中心设计中仍然非常相关,但扩散模型(通常具有几何或等变架构)正在成为当团队关心3D结构、口袋兼容性和现代药物发现管道中详细的物理可行性时的首选选项。

合成数据和"数字孪生"模型的使用,以告知药物发现模型

合成数据 在AI中,合成数据是人工生成的信息,模仿真实世界数据的统计模式和属性,由算法或生成模型创建,而不是来自实际事件。
合成数据对于训练模型、测试系统和克服数据稀缺或患者隐私问题非常有价值。
数字孪生 AI中的数字孪生是物理对象、系统或过程的动态虚拟副本,使用实时数据、机器学习和IoT传感器来模拟、预测和优化性能。
与静态3D模型不同,这些"活"的数字对应物持续更新,允许进行预测性维护、高级模拟和改进决策制定

合成和数字孪生临床数据都是评估AI生成的分子(API)药物候选物的宝贵手段。它们创建患者的虚拟表示或患者队列,但

o 合成数据侧重于统计上真实的数据集,而

o 数字孪生侧重于个体化、动态模拟的"虚拟患者"。

两者都依赖于生成和预测AI模型,是的,数字孪生式建模在药物发现和分子优化中逻辑上适用,特别是对于虚拟试验、PK/PD和患者级响应预测。

合成临床数据生成

合成临床数据旨在复制真实EHRs、注册表或试验数据集的分布和多变量关系,而不暴露实际患者记录。典型目标包括隐私保护、数据共享、类别不平衡校正和场景模拟(例如,罕见疾病、替代资格标准)。

常用的AI模型类型:

• 变分自编码器(VAEs)和其他深度生成模型,用于学习高维临床变量的联合分布。

• GAN变体,如CTGAN,用于复杂的表格临床数据,包括生存结果和罕见事件。

• 大型语言模型(LLMs)生成合成文本(笔记)甚至表格围手术期数据集,当通过变量描述和统计信息引导时。

这些合成数据集已用于肿瘤学和其他领域,以

o 训练和验证AI模型,

o 模拟临床试验,以及

o 创建跨赞助商的"虚拟"数据集。

数字孪生临床数据和应用

患者数字孪生是患者的可视虚拟副本、器官或生物系统,集成多维患者特异性数据,支持模拟、预测和监控。

评论区分:

• 仿真数字孪生,使用详细的计算模型测试假设干预或治疗策略。

• 监控数字孪生,摄取实时数据(EHR、可穿戴设备、成像)以持续预测风险和结果并调整护理。

实际上,数字孪生正在为器官(心脏、肺)、全患者轨迹和细胞系统构建,使用来自临床、组学、成像和环境源的多尺度数据。

数字孪生系统中使用的AI基础模型

数字孪生平台通常将机械建模(例如,生物物理模拟器、PK/PD、系统生物学模型)与数据驱动的AI相结合。

在AI方面,当前工作使用:

• 时间序列和序列模型(Transformer、RNNs、时间CNNs),用于纵向生命体征、实验室和监控预测。

• 生成模型(VAEs、GANs、扩散)模拟患者或队列水平的轨迹、治疗响应和反事实场景。

• 在组学和细胞状态数据上的基础模型,构建细胞的"数字孪生"并预测它们如何响应分子或组合。

• 融合临床、遗传、分子、环境和成像数据的多模态模型,如健康聚焦数字孪生框架中强调的那样。

一些平台(例如,DeepLife的细胞数字孪生)明确地将丰富的组学表示与可解释的AI配对,以在硅中测试数十亿种药物组合并识别作用机制。

药物发现和分子优化中的逻辑角色

数字孪生和合成数据方法很好地映射到药物研发的多个阶段:

虚拟临床试验和试验优化:

o 合成临床数据和患者数字孪生可以模拟替代试验设计、纳入标准和给药策略,帮助加速或降低研究风险。

药物和分子数字孪生:

o 药物候选物和分子系统的数字副本允许模拟分子相互作用、PK/PD行为和设备/配方策略,支持在昂贵的湿实验室工作前进行优化。

个性化响应预测:

o 整合EHR、组学和遗传数据的患者数字孪生可以模拟不同分子、剂量或组合如何影响特定患者亚型,为精准医疗策略和标签扩展假设提供信息。

关于数字孪生用于药物设计的评论明确主张将其用于分子相互作用优化、药物反应预测和定制临床干预,强调降低成本、加速时间表以及提高安全性和有效性。

因此,虽然数字孪生概念起源于系统工程和患者管理,但它在逻辑上并且越来越多地扩展到药物发现和分子优化中,特别是随着生成和多模态基础模型的成熟。

扩散模型算法:AI药物发现和设计的"细节"

扩散AI药物设计模型是当今的热门话题。该过程提供了一种分子设计,似乎是最可靠的,可实现治疗效果。

扩散模型如何工作?当然很复杂,但本质上,AI算法相对于设计约束故意改变分子的虚拟结构("噪声化"),然后重构结构("去噪"),以产生满足理想几何、原子空间属性的预测分子结构。

前向(噪声)和反向(去噪)扩散是两个互补的马尔可夫链:一个用噪声腐蚀真实3D分子,另一个学习撤销该腐蚀,从而生成新分子。

前向扩散:"在分子的结构参数中创建噪声"

该模型学习噪声时间表,其中每个步骤逐渐扰动或扭曲数据,直到几何感知变体被激活以保留分子对称性,如旋转和平移。

前向"噪声化"过程的作用:

• 在3D分子扩散中,前向过程向所选表示(3D坐标、扭转角、潜在图特征)添加数学控制的噪声,逐渐洗掉原始结构,直到它几乎随机。

• 这会降低现实的键长、角度和空间组织;从这个意义上说,随着噪声增加,物理和化学约束逐渐被违反。

反向扩散:去噪以生成理想的分子结构

训练优化神经网络以预测添加的"数据噪声"。模型的预期"噪声化"阶段然后通过条件约束(例如,结合亲和力)或通过固定口袋坐标和交叉注意力的蛋白质口袋,反转或更准确地重构分子设计。

反向"去噪"过程的作用:

• 反向过程是学习的:神经网络被训练将噪声状态映射回类似数据的状态,通过预测每一步的分数或噪声,而不是通过明确"撤销"先前应用的失真列表。

• 几何感知模型将约束嵌入表示和架构中(E(3)-等变性、键长/角特征、形状或口袋条件),因此在去噪过程中,模型倾向于将样本移动到具有有效键、合理几何形状和所需属性的化学空间区域。

• 在许多管道中,通过单独的预测器或后处理(例如,OpenBabel优化、显式键扩散组件)添加键类型或价态检查,以强制化学有效结构和首选几何形状。

首选结构的条件设置

对于药物设计,像GeoLDM或GCDM这样的模型结合了属性预测器或口袋编码器,能够生成具有优化稳定性和亲和力的口袋感知配体;例如,DiffDock通过将坐标扩散到蛋白质口袋中生成姿态。这产生了比GANs/VAEs更真实的多样化、有效、稳定的3D分子。

因此,可以说该模型故意破坏几何结构,然后学习一个引导的"清理"过程,将噪声结构驱动到有效、通常是属性优化的分子。然而,它通过学习的概率去噪和归纳偏差来实现这一点,而不是确定性的"改变结构,然后恢复结构"规则集。

药物发现/设计AI模型综合列表

以下是药物发现和分子设计中使用的主要AI应用类型的简明时间线,带有大致的首次引入和"广泛采用"日期,以及重要参考文献。年份必然是近似的,因为采用是渐进的。

解释说明

• "首次引入"=药物发现中该应用的首个有影响力论文或明确提案。

• "广泛采用"=在学术/行业管道或主要基准和评论中使用变得普遍的时候。

药物发现中的关键AI应用

AI模型家族 主要用途 首次引入 广泛采用 重要文章
经典QSAR/ML (SVM、RF、浅层NN) 从描述符预测活性/ADMET,虚拟筛选 1990年代-2000年代初(基于ML的QSAR) 2000年代中期开始;到2010年这些方法已成为标准 "AI-based Computational Methods in Early Drug Discovery and Post-Market Drug Assessment"(ML包括QSAR的评论)
深度神经网络用于QSAR (DNNs、CNNs) 非线性QSAR,多任务活性预测 2012-2014年左右,在视觉/语音深度学习突破之后 2010年代中期;到2016-2017年被广泛探索 Tang et al.,"A survey of generative AI for de novo drug design"(将深度模型置于药物设计背景中)
SMILES-based RNN序列生成器 作为序列(SMILES)的从头分子生成 ~2016年,RNNs生成有效SMILES用于新分子的早期工作 2010年代后期;到~2018年成为标准基线 "Generative Deep Learning for de Novo Drug Design – A Chemical Odysse"
变分自编码器(VAEs) 潜在空间探索和属性条件分子生成 2016-2017年用于分子VAEs;通用VAE论文后不久出现早期化学信息学VAEs 到~2018-2019年,VAEs成为从头设计中的领先生成模型 Zhavoronkov et al., 2019 (GENTRL VAE-like框架用于DDR1抑制剂,快速从硅到体内)
用于分子的GANs (分子GANs、ORGAN、MolGAN等) 从头分子生成,通常强调多样性和新颖性 ~2017-2018年,分子GAN适应的初始工作 2010年代后期;到2019-2020年被广泛研究 评论:"Generative artificial intelligence in drug discovery: basic framework and applications"
用于分子优化的强化学习(RL) 通过迭代编辑或序列生成优化目标属性的分子 2017-2018年用于SMILES/分子优化的RL-based ~2019年以后;RL与VAEs/RNNs结合在许多管道中 Korshunova et al., 2021 (用于EGFR抑制剂的RL)
用于属性预测的图神经网络(GNNs) 使用分子图(而非指纹)预测效力/ADMET 2015-2016年左右;早期GCN/GNN应用于化学在一般GNN工作后不久 到~2018-2019年,GNN QSAR成为研究中的中流砥柱 "Graph neural networks for materials science and chemistry"
基于图的分子生成器(GraphINVENT) 使用GNNs逐原子生成2D分子图 2018-2020年;GraphINVENT和相关图生成器发表于2019-2020年左右 2020年代初;用作图基础从头设计中的强基线 "Graph Networks for Molecular Design"
使用AlphaFold(1/2/3)的蛋白质结构预测 预测3D蛋白质结构,以实现靶点选择和基于结构的设计 AlphaFold 1于2018年CASP13首次亮相 AlphaFold 2于2020年发布;到2021-2022年被广泛采用(预测了数百万结构) Jumper et al., 2021,"Highly accurate protein structure prediction with AlphaFold"
用于蛋白质-配体对接的几何深度学习 DiffDock风格 使用SE(3)-感知模型预测结合姿态并执行基于结构的设计 2021-2022年左右用于几何深度学习对接和姿态预测器 到~2023-2024年,这些被广泛研究并集成为最先进的对接基线 Corso et al., 2023,"DiffDock"及相关几何深度学习评论
用于从头小分子设计的扩散模型 从噪声到分子(2D/3D)的生成模型,口袋条件 ~2021-2022年将扩散模型适应于分子和蛋白质-配体复合物 2023-2024年左右迅速采用;近期评论将扩散视为领先方法 "Diffusion Models in De Novo Drug Design"
大型语言模型/化学语言模型(CLMs) SMILES或序列基础生成,反应预测,合成规划,知识挖掘 2019-2020年用于基于transformer的CLMs和逆合成模型 到~2022-2024年,LLMs/CLMs广泛用于反应预测、库设计和文档挖掘 Tang et al. 2024年关于生成式AI用于从头药物设计的调查;CLMs的观点
用于蛋白质和抗体的基础模型(例如,蛋白质语言模型) 蛋白质序列设计,突变效应预测,抗体优化 2019-2021年用于在序列上预训练的大型蛋白质语言模型 2022-2024年:在蛋白质/抗体设计管道中被广泛探索 Tang et al. 调查和生成式深度学习视角讨论设计中的蛋白质LMs
用于合成/数字孪生临床数据的生成式AI 生成合成临床试验/EHR数据并模拟用于试验设计的虚拟患者 早期合成数据方法出现在2015年之前,但深度生成医疗数据工作在~2017年后增长 到~2023-2025年,LLMs和VAEs/GANs用于合成临床数据集和虚拟试验变得活跃探索 "Synthetic data generation: a privacy-preserving approach to healthcare data";关于生成式AI用于医疗数据的Nature评论

此表以应用为中心(QSAR、从头生成、对接、蛋白质设计、合成数据)及其模型家族,大致映射了每个进入该领域的时机以及何时在学术和早期工业实践中变得普遍。

基础模型充当框架("什么"),复杂概率算法充当机制("如何"),其中Transformer和自监督学习使这些模型能够以高连贯性进行学习、预测和生成。

【全文结束】