默克避免在人工智能和机器学习上采取一刀切的方法

Solution Building: Merck Avoids One-Size-Fits-All Approach to AI and ML

美国英文科技/健康
新闻源:GEN - Genetic Engineering and Biotechnology News
2025-06-26 05:00:00阅读时长11分钟5256字
默克人工智能机器学习药物发现KRASG12C抑制剂MK-1084TEDDY疾病生物学精准药物人类健康临床试验

在去年高盛医疗保健高管非正式会议上,默克公司董事长兼首席执行官罗伯特·A·戴维斯告诉投资者,这家制药巨头正在投入“重大”资金用于自动化流程、数据分析以及通过人工智能支持决策。

“我们在实验室中的人工智能和机器学习方面进行了有意义的投资,并开始以不同的方式思考我们如何接触客户,”戴维斯说。他补充道:“它现在是我们公司的核心战略重点之一。”

默克公司副总裁兼数据、人工智能和基因组科学部门主管Iya Khalil博士分享了一个最近的例子,在今年5月30日至6月3日于芝加哥麦考密克会展中心举行的2025年美国临床肿瘤学会(ASCO)年会上,默克展示了其利用AI开发的一种新药。该药物为下一代KRAS G12C抑制剂MK-1084,默克公布了开放标签I期KANDLELIT-001试验(NCT05067283)的安全性和有效性结果,评估了MK-1084单药及其与其他疗法联合应用于携带KRAS G12C突变实体瘤患者的疗效,包括晚期结直肠癌和非小细胞肺癌。

在患有晚期KRAS G12C突变型CRC和NSCLC的患者中,MK-1084作为单药或联合默克多适应症重磅抗癌免疫疗法Keytruda®(pembrolizumab)使用时,显示出抗肿瘤活性和可管理的安全性特征,并且无论是否联合化疗(卡铂和培美曲塞)均有效果。

“我们能够利用人工智能和机器学习优化该药物的特性——使其更安全、更好、更有效。这正是一个实例,说明我们在默克建立的AI机器学习模型和方法结合了我们的历史数据和针对该化合物收集的新数据,最终得到了更好的分子,”哈立德表示。“证据就在试验本身:我们进行了试验,得到了更好的药物MK-1084。”

今年早些时候,默克推出了其新的TEDDY(Transformers for Enabling Drug DiscoverY,意为‘用于推动药物发现的转换器’)系列人工智能基础模型。TEDDY的设计旨在克服现有基因调控网络(GRN)模型的局限性,通过整合生物注释、扩展到更大和更多样化的数据集、提升跨疾病和细胞类型推断能力(尤其是对于未见过的数据),并利用模型规模(参数范围从10M到400M)和生物学知识。

在上周举行的生物技术创新组织(BIO)国际大会上,哈立德博士与《GEN Edge》讨论了默克在人工智能方面的应用及成功案例。(以下访谈经过轻微编辑以调整长度和清晰度。)

GEN Edge:各类规模的公司都在谈论将AI应用于药物发现,默克在这方面有何不同?

Iya Khalil博士: 我们不仅在使用AI,还在构建自己的AI。我们整合了大量数据,包括来自我们化合物的历史数据集、患者数据集、临床前数据集,并生成新数据以改进AI。关键在于,我们认为主动学习——即创建所谓的飞轮引擎,向AI提供数据,AI做出预测后变得更好——是一个核心且具有差异化的组成部分。

我们已经生成并创建了这一AI,并将其嵌入到我们的功能中,无论是寻找新疾病生物学的功能,还是专门针对特定任务设计的AI。这并不是一种通用解决方案,而是帮助我们了解疾病生物学的AI。我们已经建立了帮助我们发现和优化分子的AI解决方案,使它们具备最佳效力、选择性、较少脱靶效应和最佳安全性。此外,我们还在早期试验中利用AI和机器学习进行患者筛选,确保合适的患者在合适的时间获得合适的药物。

GEN Edge:默克在药物发现过程中是如何以及在哪里整合AI的?

哈立德: 我们在目标选择阶段整合了AI,在先导化合物发现和优化阶段也进行了整合。我们还将其整合到安全性研究中,以便生成对药物安全信号的理解和优化所需信息。并且,我们将其整合到围绕精准医学的临床试验中,识别哪些患者因其遗传学和基因组背景最可能对某种药物产生反应。此外,我们还在试验设计中使用AI,帮助临床医生和试验设计者更好地理解现有知识库,包括过去试验的设计方式以及未来试验的设想,从而提高效率和速度。

GEN Edge:人们常常认为AI会取代人类在药物发现中的作用,但默克表示AI是增强人类能力的工具。您能否解释一下人类在AI驱动过程中的角色以及AI如何帮助人类?

哈立德: 让我们以目标发现和疾病生物学发现为例。我们现在使用AI分析所有能找到的患者数据,包括单细胞患者数据并研究其基因组学。每种疾病的每个细胞在许多患者中如何表达自己?

我们整合了来自24,000名捐赠者的1.16亿个细胞数据,涵盖了413种不同组织类型、860种不同细胞类型以及122种不同疾病。我们利用AI构建了所谓的基础模型。这个模型旨在学习所有这些疾病生物学和患者之间的变异性,直至分子水平,编码生物学的表征。

然后我们可以将这个模型输入特定疾病生物学数据集,让生物学家学习相关的通路,并开始运用他们的专业知识和科学知识,比如判断应该优先针对哪个机制。模型将所有这些信息集中在一个地方。它将可能需要数十年才能通过人类直觉学习的内容整合在一起,并使科学家能够更快地做出更好的决策。

GEN Edge:为什么是1.16亿而不是更多?

哈立德: 这是我们截至4月份能获取的最大数据量。未来会有更多数据。我们正在生成更多数据,并且参与了许多合作伙伴关系,随着时间推移可以获得更多的数据。

GEN Edge:构成这1.16亿个细胞的是哪些类型的细胞?

哈立德: 从肝细胞、心肌细胞、结肠细胞到免疫细胞(如T细胞、B细胞),几乎涵盖人体内所有可以获取数据的细胞类型。

GEN Edge:今年早些时候,默克推出了TEDDY,一系列新的AI基础模型。您在评论中提到,TEDDY克服了基因调控网络模型的局限性,提升了跨疾病和细胞类型的推断能力。研究人员希望通过TEDDY找到哪些推断?

哈立德: 我们之所以构建TEDDY模型,是因为我们希望真正理解整个人类基因组中所有基因的变异性和生物学特性,以及跨所有疾病乃至患者层面的变异性。因此,我们可以在训练这些模型之后输入患者档案。例如,如果你有组织样本并查看基因表达情况,或者如果这是来自肿瘤患者的样本并将其输入模型,那么它可以预测所有基因之间的关系。我可以说,在那个患者中,这条通路是最活跃的。这些基因或这组基因实际上是导致疾病的罪魁祸首。这为我们开发新疗法提供了依据。

这也为精准药物的开发奠定了基础。因为我们可以针对某个患者指出,这是你想要靶向的实际通路机制。即使是同一种适应症(如肺癌),不同患者可能有不同的活跃通路,而我们想知道这些通路是什么,以便为患者提供最佳治疗。

GEN Edge:另一个值得关注的特点是整合了关键生物数据(疾病类型、组织类型、细胞类型)作为监督信号。这些信号中哪一个优先级更高?

哈立德: 我们需要从所有这些信号中学习。这是先进AI和机器学习方法的美妙之处。你可以输入来自不同类型细胞、组织、疾病以及其他特征和分子变化的数据,模型能够跨所有这些数据学习。你不需要告诉它哪个最重要。

从计算机科学的角度来看,我们使用的这项技术类似于开发大规模语言模型(如ChatGPT)的技术。我们使用基于转换器的模型,而不是输入字母、单词、文章和书籍,而是输入生物数据。就像那些大型语言模型能够在字母、单词、概念、文章和书籍之间学习一样,这里也是如此。

我们在所有数据中学习,正如我们在TEDDY出版物中宣布的目标那样,我们希望让这些模型更好。我们计划继续改进它们,使其能够真正大规模捕捉人类疾病生物学。因此,我们将向这些模型输入其他类型的数据,包括成像数据、病理数据、临床数据、来自蛋白质和酶的多模态数据等。

GEN Edge:您提到了持续改进。自4月以来,TEDDY有哪些具体的调整吗?

哈立德: 自4月以来,我们主要向模型添加了疾病特定的数据类型。我们正在通过模型输入扰动这些细胞并在不同疾病背景下进行测试。可能是眼疾、免疫学疾病或癌症。

由于我们已经构建了模型来学习生物学表征,这使我们能够做出比现有最先进的模型更准确的预测。因此,我们现在能够以72%的准确率预测疾病指征状态,比当前最先进的模型高10%。我们现在正在输入非常具体的疾病数据集。我们希望了解——在黄斑变性中,哪种机制是最佳的,模型揭示出的新机制可能比现有的药物和治疗方法更有效?

这是一个经过全面训练的模型。我们并没有告诉它什么是癌细胞或肝细胞或肝病或癌症。我们只是提供所有信息,观察标签,然后从中推断。

GEN Edge:疾病、组织和细胞类型是否是唯一的或主要信号,还有其他信号吗?

哈立德: 我们使用了每种细胞类型、疾病指征、细胞类型和组织类型的RNAseq分子谱。

GEN Edge:TEDDY是在1.16亿个细胞上训练的,比现有模型使用的数据集更大。

哈立德: 是的,这就是我们的目标:尽可能整合最大的任务,并扩展训练所需的参数数量。我们从1000万参数开始,逐步增加计算和训练至4000万参数。我们能够学习所谓的生物学缩放定律。

再次以GPT-4为例:计算机科学家知道某些缩放定律——GPU处理更多语言数据的能力、语言所能做的事情以及互联网上的所有信息。最终它可以通过生物学AP考试。我们在这里做的是用尽可能多的细胞生物学数据喂养模型,探索参数以查看我们能多准确地预测患者的疾病以及哪些通路和机制失调。

GEN Edge:TEDDY有两个变体模型,TEDDY G和TEDDY X。您在评论中描述了它们。什么时候使用G?什么时候使用X?

哈立德: TEDDY G被视为基础模型,能够读取细胞的配方。它告诉你,对于哪个基因,它对哪种细胞类型或疾病类型更重要。这就是TEDDY G。它有点像想象如何将一个细胞状态或疾病状态转移到另一个状态。我需要扰动哪些基因才能实现这一点?TEDDY X适用于实验室科学家,他们想知道如果移动另一个基因,某个基因的精确水平是多少。

GEN Edge:默克表示已经应用AI超过十年。这种应用是如何随时间演变的?

哈立德: 我们进入所谓高级数据科学方法的研究始于大约20年前,当时我们试图理解Keytruda®如何工作以及对谁有效。通过聚合和利用与构建TEDDY相同的大规模数据集,团队确定了可以从患者身上测量的一些关键生物标志物,从PD-L1水平到积累的突变数量。这在帮助我们选择Keytruda适用患者方面表现良好。

这让我们意识到,人类遗传基因组数据集蕴含巨大潜力,我们应该继续投资于此。我们也确实这么做了。多年来,我们开展了多项合作以获取更多癌症数据。但我们还意识到需要投资于自己的数据集。因此,我们定期从临床试验中收集基因和基因组数据,并建立了湿实验室能力以大规模生成基因/基因组数据集,可以剖析许多细胞和组织,甚至使用CRISPR等技术扰动特定基因,以了解其运作机制。我们进行了这些投资。

然后,关键是我们希望从最先进的数据科学方法转向最先进的人工智能方法。因此,我组建了一支专注于AI/ML的团队,其中包括来自国内一些顶尖计算机科学实验室的资深计算机科学家和专家……我们感到必须将这种深厚的专业知识引入内部,并与我们的IT和技术团队合作,构建他们开发的技术堆栈,使我们能够自行构建并扩展这些模型。我们不仅借用外部资源,还在内部创新并构建AI。

GEN Edge:默克在AI方面的承诺有多深?

哈立德: 我可以说我们非常坚定。我们的承诺体现在已经建立并嵌入AI和ML团队,涵盖目标发现、物质组成、安全性以及疾病生物学和临床试验生物学的理解。这不仅仅局限于一个领域,而是贯穿所有领域。而且,这不是一种一刀切的解决方案,适用于所有事情。不,每个领域都有自己的创新团队,深入使用AI并针对该领域的具体需求进行创新。

GEN Edge:像许多公司一样,默克表示努力最大化AI对其员工和患者的益处。默克如何平衡这些关切与最大化使用AI的好处,包括可能带来的效率提升甚至长期工作岗位流失?

哈立德: 我认为AI解决了两个相关问题:一是如何提高效率?你能更快地运行试验吗?你能以更优化的劳动力快速推出药物吗?二是科学方面的问题——深入的研究基本上让我们谦逊地解开以前未知的人类生物学,发现以前无法发现的分子,并在正确的地方靶向这些分子。

任何大公司都必须同时解决这两个问题。这是趋势所在。但这是我们学到的:随着AI的进步,它实际上正在帮助科学家和研究人员更好地完成工作。因此,这不仅仅是效率问题,也不仅仅是减少。实际上,它正在利用现有劳动力创造更多价值。

GEN Edge:更快的过程?还是更多的候选药物?

哈立德: 是以前无法获得的见解。去年,我们在一个治疗领域启动了一个目标ID项目,涉及我们之前未探索过的机制。过去可能需要数年的研究,今年我们有望获得首个同类最佳目标。我们有处于先导优化阶段的分子,项目团队需要弄清楚如何优化该模型。过去需要数月的过程,现在只需几周。更重要的是,结果更好。

GEN Edge:在哪个治疗领域?

哈立德: 第一个案例是免疫学。至于药物优化,我举了KRAS的例子——这是一个很好的例子,但我们正在跨多个治疗领域应用这种方法(默克的重点治疗领域包括肿瘤学、疫苗、传染病、心代谢疾病、免疫学、神经科学和眼科)。

GEN Edge:展望未来,默克认为AI还有哪些机会可以进一步扩大其应用?

哈立德: 对我来说,机会在于更深入地探索。我们非常战略性地将AI应用于研发,以发现更好的目标、分子、安全性以及首次人体试验。对我来说,关键是更深入。举个例子,对于许多传统化疗药物,我们仍然不知道它们最初会对哪些患者起作用。所以我们要去弄清楚,我们现在可以解决哪些问题,这些问题将帮助我们设计更好的试验?

我们可能会研究某些疾病,比如系统性红斑狼疮(SLE),我们对它的分子、遗传和基因组驱动因素仍然知之甚少。我们如何解决这个问题?我们有这个强大的工具包。我们可以研究尚未取得重大突破的目标。如何利用AI更快地获得初步突破,并针对以前难以或无法成药的目标进行药物开发?现在,我们可以结合这些技术——AI、湿实验室、干实验室——共同推动对我们人类健康和生物学最重要问题的更深层次答案。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。