AI24小时筛完10万亿次?新药研发要变天了

国内资讯 / 探索科学责任编辑:孔祥勇2026-01-29 09:05:01 - 阅读时长7分钟 - 3479字
清华大学开发的DrugCLIP框架能在24小时内完成10万亿次蛋白质-配体配对筛选,大幅缩短新药研发周期,降低研发成本,使更多患者受益。这项技术突破为罕见病和难治性癌症带来希望。
新药研发AI技术DrugCLIP药物筛选罕见病难治性癌症蛋白质-配体配对基因突变药物靶点研发成本新药研发周期生物医药研究全球药物数据库药物候选分子临床试验
AI24小时筛完10万亿次?新药研发要变天了

对于许多身患罕见病或难治性癌症的患者来说,“新药研发”是个遥远又煎熬的词——传统药物筛选往往要花数年甚至十年,等不到的绝望时刻都在发生。但2026年初,清华大学的一项AI技术突破,可能把这个“等待”的时钟拨快千万倍:他们开发的DrugCLIP框架,能在24小时内完成10万亿次蛋白质-配体配对筛选,还免费开放了全球最大的药物筛选数据库。这不是科幻电影里的情节,而是实实在在能改变新药研发格局的“加速器”。

AI把药物筛选搞成了“闪电战”:一天干完传统方法半年的活

传统的分子对接方法筛选10万亿对蛋白质-配体(也就是10万亿次“钥匙配锁”的尝试),需要什么概念?假设一个实验室用最先进的服务器,可能要熬上好几个月,甚至半年——相当于研究员天天盯着进度条,看着数字慢慢跳。但DrugCLIP干了件“超神”的事:用8个GPU,24小时就把这事搞定了,速度比传统方法快了整整数百倍。

这速度背后的“规模”更惊人:这次筛选覆盖了10000个人类蛋白质(相当于人类基因组里近一半的可药物靶点),对着5亿种化合物进行全组合配对,最后捞出了200万个候选分子——这些分子都是潜在的“药物种子”,等着研究者去验证它们的疗效。

更关键的是,这些“种子”不是藏在实验室的硬盘里,而是免费开放给全球研究者。团队搭建的GenomeScreenDB数据库,是目前全球规模最大的蛋白质-配体筛选数据库,里面的200万候选分子,相当于给全球的生物医药研究者递了一本“新药字典”:

  • 和AlphaFold的“互补技能”: AlphaFold能精准预测蛋白质结构,就像“画锁匠”,能画出锁的样子,但没法直接告诉你哪把钥匙能开这把锁。而DrugCLIP是“钥匙专家”,直接把“锁+匹配的钥匙”一起给你,刚好补上了AlphaFold的“短板”。
  • 中小实验室的“福音”: 以前做全基因组筛选,得有超大规模的算力,比如AlphaFold需要的服务器集群,成本可能高达数百万元,中小实验室根本扛不住。但DrugCLIP走了“轻量化”路线,8个GPU就能跑,就算是地方医院的科研团队,也能从GenomeScreenDB里找靶点,开展自己的新药研究——这相当于把“高端研发”的门槛,从“摩天大楼”降到了“平民公寓”。

为什么DrugCLIP能这么快?核心是它的“对比学习”机制。简单说,就是教AI同时学两门“语言”:一门是蛋白质口袋的“结构语言”(比如这个口袋是圆的还是方的,表面带正电还是负电),一门是小分子的“化学语言”(比如这个分子的分子式、官能团),然后把这两门语言翻译成同一个“密码本”(共享潜在空间)。这样AI就能像搜索引擎一样,输入一个蛋白质靶点(相当于“关键词”),立刻从5亿化合物里捞出最匹配的那个(相当于“相关网页”),不用逐个模拟“钥匙插锁”的过程。

患者最关心的3件事:新药更快、靶点更多、成本更低

DrugCLIP的突破,不是实验室里的“纸上谈兵”,而是真真切切能让患者受益的“硬货”——总结下来,有3件事最实在:

第一,以前“碰都不敢碰”的靶点,现在能研究了。现在的靶向药只能覆盖10%的可药物靶点,剩下90%的靶点就像“未开垦的荒地”——比如罕见病的基因突变(比如渐冻症的SOD1基因)、癌症里的驱动蛋白(比如肺癌的EGFR突变亚型),这些靶点以前因为筛选难度太大,根本没人愿意做。但DrugCLIP把覆盖范围拉到了50%,相当于把“荒地”变成了“良田”。比如一个得了罕见病的孩子,体内有个突变的蛋白质,以前要找能抑制它的小分子,可能要筛个几年,现在用DrugCLIP,几周就能找出高潜力的候选分子——这不是“加速”,是“给生命续时间”。

第二,新药研发的“等待期”大幅缩短。传统的药物筛选流程,从“找靶点”到“筛出候选分子”,可能要花2-3年。但DrugCLIP把这个过程压缩到了“几天到几周”。比如针对某个癌症的突变蛋白,以前要筛选100万种化合物,得花半年;现在用DrugCLIP,一天就能筛5亿种,几周就能找出最有潜力的小分子抑制剂——这意味着,原本要等5年的新药,可能3年就能进入临床,甚至更快。

第三,新药的“价格门槛”可能会降低。传统药物研发的成本,很大一部分花在“筛选”环节:比如筛100万种化合物,要花上千万的算力和人力成本。而DrugCLIP用8个GPU一天干完,成本一下子砍了90%——中小实验室都能参与,意味着更多的研究者加入,竞争变多,新药的价格可能会更亲民。比如以前一个靶向药要卖10万一瓶,以后可能只要2万,甚至更低——对于普通家庭来说,这就是“救命的价格”。

还有个更“接地气”的好处:轻量化的设计让中小研究机构也能参与。比如某个地级市的医院,以前想研究本地高发的肝癌靶点,根本没能力做全基因组筛选,现在用DrugCLIP,8个GPU就能跑,再从GenomeScreenDB里找候选分子,就能开展自己的研究——这相当于把“新药研发的话语权”从大公司手里,分到了更多研究者手里,最终受益的还是患者。

AI是怎么“读懂”蛋白质和分子的?用了搜索引擎的思路

很多人可能会好奇:AI又不是生物学家,怎么能“知道”哪个小分子能和哪个蛋白质结合?其实DrugCLIP的思路,和我们每天用的搜索引擎一模一样。

比如你在百度搜“北京最好吃的烤鸭店”,搜索引擎能立刻给你列出一堆结果——这是因为它学过“关键词”(北京最好吃的烤鸭店)和“网页内容”(各个烤鸭店的介绍)的对应关系。DrugCLIP也是一样,它学的是“蛋白质口袋的结构”(相当于“关键词”)和“小分子的化学结构”(相当于“网页内容”)的对应关系,然后把它们放进同一个“编码空间”(相当于搜索引擎的“索引库”)。这样当你输入一个蛋白质口袋,AI就能立刻从5亿化合物里找出最匹配的那个,就像搜索引擎找网页一样快。

具体来说,DrugCLIP的“学习过程”分两步:

  • 第一步:学“两门语言” 先让AI学蛋白质口袋的“结构语言”——比如这个口袋的形状、大小、表面的电荷分布;再学小分子的“化学语言”——比如分子的分子式、官能团、极性。就像一个人同时学汉语和英语,然后能把汉语翻译成英语,英语翻译成汉语。
  • 第二步:练“配对能力” 用大规模的合成数据(电脑模拟的蛋白质-配体结构)和实验数据(真实的药物-靶点复合物)训练AI,让它“记住”什么样的口袋配什么样的分子。比如AI会学到:带正电的口袋,更容易和带负电的小分子结合;形状狭长的口袋,更容易和线性结构的小分子结合——就像我们记住“圆钥匙配圆锁孔”“方钥匙配方锁孔”一样。

这样训练出来的AI,做筛选的时候就不用“逐个试”了,直接“按图索骥”:输入一个蛋白质口袋的结构,AI立刻从5亿化合物里找出“最像钥匙的分子”,然后给出“匹配度评分”——评分高的,就是潜在的候选药物。

再举个“锁和钥匙”的例子:药物要发挥作用,必须让小分子“钻”进蛋白质表面的“口袋”里,形成稳定的结合——就像钥匙插进锁孔,转对了才能开门。传统方法要模拟这个“插钥匙”的过程,得算很多物理化学参数,比如分子间的作用力、氢键的形成,很慢。而DrugCLIP通过对比学习,直接“记住”了“什么样的钥匙配什么样的锁”,不用再一步步模拟,所以能瞬间找出匹配的钥匙(小分子)。

DrugCLIP的突破,不是冷冰冰的技术参数,而是给无数等待新药的患者递了一根“救命稻草”。比如那些得了脊髓性肌萎缩症(SMA)的孩子,他们的病因是SMN1基因缺失,以前要找能激活SMN2基因的小分子,可能要筛好几年,现在用DrugCLIP,几周就能找出候选分子;比如那些肺癌晚期的患者,他们的EGFR基因有罕见突变,以前没有针对性的靶向药,现在用DrugCLIP,能快速找到抑制突变蛋白的小分子——这些都是实实在在的“希望”。

当然,DrugCLIP现在还只是“第一步”:筛选出来的候选分子,还要经过细胞实验、动物实验、临床实验,才能变成真正的药物。但至少,我们看到了AI在生物医药领域的“正确打开方式”:不是为了炫技,而是为了解决患者的“痛点”——让新药研发更快、更便宜、更普惠。

未来,我们期待看到更多这样的技术突破:比如把DrugCLIP和AlphaFold结合,先预测蛋白质结构,再筛选候选分子;比如用DrugCLIP筛选针对新冠病毒变异株的抑制剂;比如让更多的中小实验室参与进来,开发针对罕见病的“孤儿药”。毕竟,生物医药的终极目标,从来不是“做出最厉害的技术”,而是“让每个患者都能用上有效的药”。