数据科学：人工智能是否已经解决了药物发现难题 - AI与医疗健康

数据科学：人工智能是否已经解决了药物发现难题Data science: has AI solved drug discovery? - Cancer Research UK - Cancer News

环球医讯 / AI与医疗健康来源：news.cancerresearchuk.org英国 - 英语2026-04-28 14:28:12 - 阅读时长5分钟 - 2082字

本文深入探讨了人工智能在药物发现领域的实际应用现状与挑战，剖析了AlphaFold等AI工具在解决蛋白质折叠问题上的突破与局限。作者指出，尽管AI已显著加速药物研发进程，使可成药蛋白质数量翻倍，但当前收益已接近瓶颈期，仅靠更智能的AI无法突破。文章强调需要更多实验数据支持，必须避免过度炒作，以科学方法指导AI在药物研发中的应用，同时明确界定每种算法的能力边界，才能真正实现人工智能在药物发现领域的承诺。

剧透警告……没有。至少目前还没有。但它正以令人难以置信的方式彻底改变这一领域。比桑·阿尔-拉齐卡尼深入探讨了我们目前的进展，以及为实现人工智能在药物发现领域的承诺，我们下一步需要做些什么…

本文是"数据科学"系列的第三篇（共三篇）

系列导航<< 数据科学：将研究人员带到数据面前

过去十年——尤其是最近两年——见证了人工智能和机器学习在生物医学科学，特别是药物发现领域作用的认可。

然而，根据一些新闻标题，一个偶然的旁观者可能会误以为药物发现科学家现在只是坐等他们的AI模型吐出灵丹妙药。这当然是无稽之谈。

数据科学和机器学习需要两个主要元素：大量组织良好并有标注的数据集供"学习"，以及一个训练框架（由人类设计）让计算机从数据中学习并做出预测。药物发现——包括分子设计——是数据和机器学习基础最好的领域之一，这就是为什么它有望从人工智能中获益。然而，我们在药物发现领域所能看到的收益正接近一个重大瓶颈——仅靠更智能的人工智能无法克服这一瓶颈。

我们在药物发现领域所能看到的收益正接近一个重大瓶颈——仅靠更智能的人工智能无法克服这一瓶颈。

人工智能与蛋白质折叠问题

蛋白质的3D结构为理解其正常功能、致病性，以及对药物发现科学家而言的理性药物设计提供了不可估量的洞见。然而，结构生物学复杂、成本高昂且技术挑战巨大，这意味着预测蛋白质结构的能力至关重要。

1968年，美国分子生物学家Cyrus Levinthal指出，蛋白质的3D结构和折叠路径必须编码在其氨基酸序列中。随机采样所有构象以达到生理上稳定的3D折叠——令人惊讶的是——将花费比宇宙年龄更长的时间。然而，蛋白质在毫秒内就能完成折叠。基于这一认识，蛋白质折叠问题和Levinthal悖论应运而生。确定支配蛋白质折叠的规则将对生物学和药物发现产生深远影响。

显然，数据科学和人工智能在这里产生了巨大影响。2024年诺贝尔化学奖授予了AlphaFold团队（以及David Baker和他的团队，他们开发了Rosetta这一蛋白质结构预测计算方法），以表彰他们对无数此前未解决的蛋白质结构进行的计算预测。两年后，这一领域的兴奋感依然存在。

那么，这些团队是否解决了蛋白质折叠问题？遗憾的是，对我们所有人来说，没有。

据我所知，这些创新者也没有做出这样的声明。兴奋的媒体报道可能是造成这种严重误解的原因。

伟大的成就实际上并不在于能够准确预测每种蛋白质的每一部分。远非如此。以c-Myc为例——也许是众所周知的致癌基因之一，甚至被称为癌症的"总指挥"——AlphaFold 3服务器无法预测其结构。AlphaFold的成就——至少到目前为止——是我们能够发现与我们已知结构相似的结构。AlphaFold之前的技术无法检测到这种相似性。

虽然AlphaFold和类似算法目前还不是万能灵药，但它们仍然可以非常有用。例如，我自己的实验室分析显示，使用公开可用的AlphaFold 2模型已经使药物发现界可用的可成药蛋白质数量翻了一番。

无与伦比的深度、良好标注的数据基础，加上几十年来对这些数据中模式的计算理解，使我们的领域成为人工智能革命的主要受益者。

然而，在理解我们如何成功使用人工智能时，一个绝对关键的点是，其效用是"真实"实验结果的直接产物。AlphaFold能够开发出来的原因是，1971年——在一个真正有远见的时刻——布鲁克海文数据银行（一个蛋白质数据库）成立，旨在标准化和编目所有未来的蛋白质3D结构。当时，它仅包含7个结构，现在则拥有近25万个结构，代表了超过75万个不同的蛋白质快照。这个受监管的存储库使几代计算科学家能够系统地分析这些数据以寻找模式——这正是人工智能可以训练的那种存储库。

下一步需要什么？

人工智能方法无法预测像c-Myc这样的蛋白质结构的原因是，我们缺乏人工智能学习所需的关键实验数据。

我们估计，总的来说，药物发现研究只针对人类蛋白质组的四分之一进行了化合物测试。因此，人工智能算法识别解决剩余四分之三所需的全新化学领域的可能性有限。

因此，我们需要更多的实验数据。显然，无与伦比的深度、良好标注的数据基础，加上几十年来对这些数据中模式的计算理解，使我们的领域成为人工智能革命的主要受益者。未来，我们必须投资于关键数据的生成。人工智能通过从现有数据中插值来"创造"，任何外推都局限于有限的边界内。没有数据"踏脚石"，人工智能无法跃入完全未知的领域。没有这些数据，就像期望生成式人工智能仅基于地球上的照片就能创建开普勒-62e系外行星上漫游的生命形式的准确图像一样。

我们还必须为我们开发的每种算法定义能力和适用性边界。过度炒作将侵蚀信任。科学方法，而非教条和戏剧性，必须指导我们未来的投资决策和人工智能使用。

作者

比桑·阿尔-拉齐卡尼教授

比桑是德克萨斯大学MD安德森癌症中心基因组医学系治疗数据科学主任兼教授。

【全文结束】