小分子药物发现:人工智能能包办一切吗?
作者:阿尼班·达塔博士,Verseon国际公司
2020年,一位特斯拉车主发布了一段搞笑视频,显示他的汽车将汉堡王标志误认为停车标志。这一事件是深度学习这类高级机器学习算法犯错的一个无害示例。尽管特斯拉汽车公司以在车辆中应用人工智能(AI)而闻名,但事实证明,这些AI算法远非完美。¹ 遗憾的是,AI驱动的自动驾驶软件还存在更危险的失误案例,可能导致人身伤害。其中一个例子涉及另一辆特斯拉汽车,无法识别站在十字路口中央手持停车标志的行人,车载AI决定不停车。² 所幸人类驾驶员及时干预,避免了悲剧发生。
尽管存在一些明显缺陷,深度学习近年来因其在各类曾需人工干预的现实任务中的实用性而备受关注,例如图像识别、语音识别和手写分析等。深度学习的近期成功催生了一种乐观情绪,认为它现在能解决更艰巨的问题,包括发现治疗人类疾病的新药物。
现代药物发现面临巨大的成本和效率问题。目前,一种典型药物从研发到获批平均需10至12年,耗资数十亿美元,更不用说大多数药物在临床试验中即告失败。毫无疑问,该领域存在改进空间。人们寄希望于AI能解决现代药物发现的核心挑战:可靠预测新型小分子药物,使其强力结合致病蛋白质并改变其功能。
高效发现新型药物仍是最大挑战
过去十年间,多家公司成立,宣称将利用AI革新小分子药物发现。私营和公共市场投资者纷纷向这些企业注资。目前,Exscientia和Recursion Pharmaceuticals在融资规模上领先,而InSilico Medicine、InSitro、XTalPi、Generate Biomedicines、Benevolent AI及Atomwise等公司紧随其后。尽管AI药物发现领域已挤满众多企业,投资者兴趣却未见减退,新公司仍在持续创立并获得资金。
但这些公司中是否有任何一家能成功?
在此背景下,“成功”被定义为利用AI可靠预测新型小分子药物,使其成功上市,且若无AI则几乎不可能被发现。但若参考以往新技术在药物发现中过度炒作的历史,这些公司很可能无法实现完整的“成功”。尽管我们无法预知未来,但基于机器学习的过去与未来趋势以及理性药物设计的独特挑战,我们试图推断哪类公司最可能胜出——无论是否在上述名单中。
AI的成功取决于充足相关训练数据的可用性
首先,有必要简要了解机器学习的核心驱动力。机器学习(尤其是深度学习)的成功高度依赖大规模训练数据集的可用性与质量。数据——特别是包含所有可能相关场景的密集数据集——使AI模型能基于训练中“学习”到的内容进行推断。通常,可用训练数据越多,大多数AI模型的表现越好。
此外,典型AI模型本质上是“黑箱”,其预测结果对人类而言几乎无法解析。依赖这些预测需要对AI模型建立信任,而这一挑战因多数应用场景无法用所有可能情况训练AI算法而进一步加剧。人类天生擅长逻辑跃迁,但AI模型目前尚不具备这种能力。现实中的例子便是汽车遇到手持停车标志的交通管理员却未能停车。与面对训练数据集之外情境时无法做出正确决策的AI不同,人类驾驶员能推断并做出正确选择。
训练AI模型以预测新型小分子药物同样需要海量数据,原因在于蛋白质-小分子结合的复杂性以及潜在小分子结合剂的数量极其庞大。问题在于,能与致病蛋白质结合的潜在小分子药物数量级远超现有数据所代表的范围。全球所有小分子药物发现项目的实验数据,仅相当于广阔未探索可能性海洋边缘的一小片潮汐池,而该海洋中尚无任何结合数据存在。这种训练数据的匮乏严重阻碍了AI模型的有效训练。AI擅长在训练数据池边界内插值,但无法在边界外进行有效的外推。
深度学习与蛋白质折叠
但DeepMind的AlphaFold 2不是刚在蛋白质结构预测领域利用AI取得重大突破吗?确实如此。然而,快速审视这一突破的发生过程,也能揭示为何AI驱动的药物发现所面临的挑战不会如此轻松。
对于蛋白质,存在多个大型基因组数据库,涵盖跨物种的海量蛋白质序列。蛋白质与其相关蛋白质的结构(及功能)相似性,往往超过仅基于蛋白质序列相似性所能推断的程度,即使跨物种比较也是如此。搜索这些数据库可为给定查询蛋白质序列找到同源蛋白质。随后可将查询蛋白质与这些同源体比对,构建多重序列比对(MSA)。将相关蛋白质序列排列为MSA的行会形成有用模式。例如,当某位置的氨基酸发生变化时,另一相距较远的位置也可能变化。这些成对相关性构成了生物学中著名共进化原理的基础,同时表明两个氨基酸很可能贡献于蛋白质结构,并在最终3D折叠形状中彼此靠近,无论其在蛋白质序列中相距多远。若MSA中的某些同源蛋白质也具有实证确定的结构,则效果更佳。即使序列相似性低的远缘同源体也可作为结构模板预测折叠。此技术称为基于同源性的建模。
与其他应用于蛋白质折叠的AI先驱类似,AlphaFold 2旨在通过MSA、共进化和结构模板,最大限度利用大型基因组数据库中的信息含量。尽管DeepMind在AlphaFold 2中实施了多项AI创新以攻克蛋白质折叠这一重大挑战,但近年来高质量训练数据(包括蛋白质序列和实证确定的蛋白质结构)的迅速增加起到了核心作用。³ 实际上,AlphaFold 2使用来自公共基因组数据库的海量数据集进行训练,这些数据库包含数亿蛋白质序列⁴,⁵,以及包含近17.5万个蛋白质结构的数据库⁶,以构建MSA并寻找结构模板。三大生物信息学支柱——MSA、共进化和同源建模——为AlphaFold 2的AI提供了关键训练数据,若无此支撑,其在蛋白质结构预测上的突破将不可能实现。
预测蛋白质-小分子结合是截然不同且更大的挑战
相比蛋白质折叠,利用AI解决蛋白质-小分子结合问题更为困难。原因多样,包括该领域缺乏MSA、共进化和同源建模的明显对应物。但归根结底,现有训练数据的稀疏性对AI药物发现造成三大主要障碍。
首先,应用于蛋白质-小分子结合的AI会偏向预测与训练数据相似的药物,因其能内插却无法外推已知数据。实验结合数据的稀疏性因此限制了AI所能发现的类药分子的类型、数量及多样性。AI最多只能对已知分子进行渐进式改进,却难以发现与已知化合物不相似的药物。当聚焦于缺乏充分表征结合剂的新蛋白质靶点时,情况更为严峻。
其次,为高效训练,AI不仅需要正向结合数据,还需负向数据。换言之,AI必须从“结合”与“不结合或弱结合”的案例中学习,才能做出可靠预测。负向信息更难获取,因为大多数研究出版物和专利仅描述产生积极结果的化合物。
第三,蛋白质-小分子结合对微小变化极为敏感。小分子化学结构或3D坐标的看似微小变动,可能导致结合亲和力的显著差异。若无海量密集相关数据,深度学习难以准确预测此类突变。
AI驱动药物发现的前进路径
如何筛选出利用AI发现新型药物竞赛中的(潜在)赢家?
由于充足训练数据的可用性是严重限制,拥有数十年积累的大型专有药物发现数据集的大型制药公司似乎具备优势。阿斯利康、默克集团、诺华和葛兰素史克均已启动内部AI赋能的药物发现计划。尽管大型药企可利用其历史数据,但这些数据多为过往药物发现活动的遗留信息,既不够多样也不够密集,无法有效训练AI。且这些数据集对全新化学实体也不相关。
问题随之而来:如何绕过这一实验数据瓶颈?
答案可能在于先进的基于物理的分子建模。该技术利用分子相互作用的基本原理,预测蛋白质与小分子的结合强度,生成合成数据以替代昂贵耗时的实验。随着合成数据形成集群,AI可内插发现与现有药典不相似的新型类药结合剂。
当训练于大数据集时,AI擅长内插;而分子建模则能基于分子物理学规则进行外推。将AI与分子建模恰当整合,很可能比任一单独方法在小分子药物发现中产生更强大的突破。因此,在基于物理的分子建模和AI两方面均具备深厚专业知识的公司可能拥有终极优势。
参考文献
- 格雷厄姆·拉皮尔(2020年6月25日)特斯拉Autopilot将汉堡王标志误认为停车标志。《商业内幕》。
- 加里·马库斯(2022年3月10日)深度学习正遭遇瓶颈。《海螺壳》。
- 跳跃J等。AlphaFold实现高精度蛋白质结构预测。《自然》。2021年8月;596(7873):583-589。PMID:34265844
- UniProt联盟。UniProt:2021年通用蛋白质知识库。《核酸研究》。2021年1月8日;49(D1):D480-D489。PMID:33237286
- 米切尔AL等。MGnify:2020年微生物组分析资源。《核酸研究》。2020年1月8日;48(D1):D570-D578。PMID:31696235
- 维兰卡尔S等。蛋白质数据库档案。《分子生物学方法》。2021年;2305:3-21。PMID:33950382
作者简介
阿尼班·达塔博士现任Verseon国际公司发现生物学负责人,拥有20余年生物医学研究和制药药物发现经验。他是Verseon化合物生物特性自动化流程的核心推动者,负责解析其独特属性并构建药物候选物开发路径。他主导过多个疾病领域的药物发现项目,包括 cardiometabolic disorders(心代谢疾病)、眼科和肿瘤学。达塔博士曾是加州大学旧金山分校(UCSF)科学家及苏珊·B·科门乳腺癌基金会研究员,并获得美国国防部肺癌和乳腺癌概念奖。其早期研究衍生出一家癌症诊断公司。他拥有芝加哥大学物理学与生物学学士学位,以及宾夕法尼亚大学分子生物学博士学位。
【全文结束】


