引言:蛋白质的内在无序区域(IDRs)长期以来未被视作药物靶点。然而,随着对其在生物活性中的关键作用及其与多种疾病关联的认识不断增强,IDRs已成为药物发现中极具潜力的目标。尽管如此,由于缺乏参考实验数据,针对IDRs的理性药物发现方法仍然欠发达。
方法:本研究探索了一种机器学习方法,用于预测IDRs功能、药物作用位点以及IDR序列中的相互作用分子亚结构。为解决数据不足的问题,采用了逐步迁移学习策略。IDRdecoder依次生成IDR分类、作用位点及相互作用配体亚结构的预测结果。首先,通过使用26,480,862条预测的IDR序列对神经网络进行自编码器训练。然后,利用57,692条具有较高IDR倾向的配体结合PDB序列,通过迁移学习预测配体作用位点和配体类型。
结果:IDRdecoder针对9条作为药物靶点的IDR序列进行了评估,这些序列均经过实验详细验证。在编码空间中,与评估IDR序列假设功能相关的特定GO术语显著富集。模型在药物作用位点和配体类型预测上的表现分别达到了曲线下面积(AUC)0.616和0.702。其性能与现有方法(如ProteinBERT)相比,表现出适度的改进。
讨论:IDRdecoder是首个用于预测IDR序列中药物作用位点和配体的应用程序。对预测结果的分析揭示了有益于IDR药物设计的特征。例如,酪氨酸(Tyr)和丙氨酸(Ala)是优选的靶点,而柔性亚结构(如烷基)在配体分子中更受青睐。
关键词:内在无序蛋白质,神经网络,基于序列的预测方法,结构生物信息学,药物设计
(全文结束)


