尖端AI程序能够通过预测蛋白质如何与小分子相互作用来支持药物开发。然而,巴塞尔大学研究人员在《自然·通讯》上发表的一项新研究表明,这些程序只是记忆模式,而非理解物理关系。当面对可能对创新药物特别感兴趣的新型蛋白质时,它们往往表现不佳。
蛋白质不仅在人体中发挥关键作用,在医学中也是如此:它们要么作为活性成分(如酶或抗体),要么作为药物的作用靶点。因此,开发新疗法的第一步通常是破译蛋白质的三维结构。
长期以来,阐明蛋白质结构是一项极为复杂的任务,直到机器学习进入蛋白质研究领域。AlphaFold或RosettaFold等AI模型开启了一个新时代:它们计算被称为氨基酸的蛋白质构建模块链如何折叠成三维结构。2024年,这些程序的开发者获得了诺贝尔化学奖。
异常高的成功率
这些程序的最新版本更进一步:它们计算目标蛋白质如何与另一种分子(专家称之为对接伙伴或配体)相互作用。例如,这可能是一种活性药物成分。
"预测蛋白质与配体共同结构的这种可能性对药物开发来说是无价的,"巴塞尔大学的马库斯·利尔教授表示。他与药学科学系的团队一起研究活性药物成分的设计方法。
然而,结构预测看似很高的成功率让利尔和他的团队感到困惑。特别是因为可用于训练AI模型的已阐明蛋白质结构及其配体仅有约10万个——与其他AI训练数据集相比相对较少。"我们想知道这些AI模型是否真的能利用训练数据学习物理化学的基本原理并正确应用它们,"利尔说。
对显著改变的结合位点做出相同预测
研究人员修改了数百个样本蛋白质的氨基酸序列,使得其配体的结合位点表现出完全不同的电荷分布,甚至被完全阻断。然而,AI模型预测出相同的复合结构——仿佛结合仍然可能。研究人员对配体也采用了类似的方法:他们修改配体,使其不再能够与目标蛋白质对接。AI模型对此也不以为意。
在超过一半的情况下,模型预测出的结构仿佛氨基酸序列中的干扰从未发生过。"这表明,即使是最高级的AI模型也不真正理解药物为何与蛋白质结合;它们只是识别以前见过的模式,"利尔说。
未知蛋白质尤为困难
如果蛋白质与训练数据集没有任何相似之处,AI模型就会面临特别的困难。"当它们看到完全新的东西时,它们很快就力不从心,但那正是新药的关键所在,"利尔强调。
因此,在药物开发方面,应谨慎看待AI模型。使用实际考虑物化性质的实验或计算机辅助分析来验证模型的预测非常重要。研究人员在研究过程中也使用了这些方法来检查AI模型的结果。
"更好的解决方案是将物化规律整合到未来的AI模型中,"利尔说。凭借更真实的结构预测,这些模型可以为新药的开发提供更好的基础,特别是针对迄今为止难以阐明的蛋白质结构,并将开启完全新的治疗方法的可能性。
【全文结束】


