将一种新药推向市场的成本已超过10亿美元且仍在上升。与此同时,人类基因组测序技术的进步正在揭示新的疾病和现有疾病的变异。传统的药物发现方法通常一次只针对一种疾病,并单独测试多种化合物,这使得药物研发难以跟上新疾病发现的步伐。为了应对这些变化,药物发现的每个阶段都需要新的方法。现代技术,特别是人工智能(AI)和机器学习,可以在大量数据可利用的领域提供帮助。
药物发现的挑战
在药物发现过程中,一个重要步骤是确定潜在药物可能影响的蛋白质。这一过程被称为靶点识别。有时,一种药物在实验室测试中可能显示出前景,但需要进一步调查以了解其作用机制。这一步骤可能成本高昂、耗时漫长,且往往无法得出明确结果。
没有单一的实验方法能明确确定药物的靶点。研究蛋白质的蛋白质组学可以使用不同方法识别未知靶点,例如下拉实验(pull-down assays)或观察药物如何影响蛋白质稳定性。另一种方法使用检测面板来检查药物是否与某些已知靶点类别(如激酶)相互作用。然而,这种方法只能测试潜在靶点的一小部分。
最近,出现了提供深入生物学信息的新技术。例如,基于图像的分析技术如细胞绘画(Cell Painting)通过在显微镜下检查细胞形状和大小的变化,创建化学品的详细特征。这些检测可以快速处理数百万种化合物,并利用基因变化观察人类基因组中的所有基因。
机器学习在药物靶点识别中的应用
在本研究中,我们专注于应用机器学习方法使靶点识别过程更快、更准确。我们希望将潜在药物与其靶点蛋白质联系起来。这有助于解释它们如何发挥作用,对药物开发至关重要。
我们使用了一个名为CPJUMP1的数据集,该数据集包含与效果相关的各种化合物和基因变化。该数据集包括302种化合物和160个基因。我们的目标是创建一个机器学习模型,根据细胞绘画检测生成的视觉特征,预测化合物与特定基因相互作用的可能性。
检查化合物是否影响基因的传统方法依赖于特征比较,但这些方法可能有限。我们的方法采用Transformer模型——一种在理解大型数据集关系方面表现出色的人工智能类型——以更准确地预测这些相互作用。
实验方法
为了评估我们方法的有效性,我们开发了一个模型,用于预测基因-化合物对是否具有真实联系。我们设计CPJUMP1数据集以包含可能相关的化合物和基因对。
我们使用了多种策略来测试我们的模型。一种方法是排除某些化合物,看我们的模型是否仍能识别联系。另一种方法是排除某些基因。最后,第三种方法是随机排除化合物和基因对。每种方法都帮助我们了解模型在不同情况下的表现。
我们使用了三种基准方法来比较模型性能:特征直接匹配、基于相似度的方法,以及为每个基因靶点单独训练分类器。我们的模型利用基因形态学增强预测,有望提供比基准方法更好的结果。
结果
我们的研究结果表明,该模型在训练数据已知化合物联系的情况下表现良好。在训练中未见过的化合物情况下,模型仍能预测可能的基因联系,但在尝试识别先前未显示联系的基因时效果较差。
对于新基因,模型面临重大挑战。与类似化合物通常共享功能关系的化合物场景不同,预测新基因的场景包含更多多样性。基因之间的这种多样性使得确定未见基因的联系更加困难,导致性能降低。
为了深入探究,我们还探索了另一种测试方法,即训练中可能遗漏了基因和化合物。在这种情况下,除非两个组件在训练集中都有先前的正向联系,否则模型通常表现不佳。
讨论
结果表明,使用基于图像的分析技术与机器学习相结合,可以更准确地预测哪些药物可能与哪些蛋白质相互作用。当有足够的背景数据可用时,该模型能成功预测靶点,特别是对先前观察到的联系。
然而,新基因面临的挑战强调了需要更广泛的数据集来覆盖更多样化的蛋白质。由于许多药物影响多个靶点,训练数据必须反映这种复杂性以提高准确性。
未来研究应寻求收集更大的数据集,并研究不同的策略来增强预测能力。整合额外的数据源,如基于化学结构和蛋白质功能的数据,可以进一步提高模型的有效性。
结论
我们的工作突显了使用基于图像的分析技术结合机器学习来增强药物靶点识别的潜力。这种方法可以显著降低药物发现过程中的成本,并加快寻找新治疗方法的时间线。
提高对新基因靶点的预测能力仍然是一个挑战,但对推进药物发现至关重要。需要更多研究来创建更好地反映基因-靶点相互作用复杂性的数据集,并开发能适应这种多样性的方法。
通过不断改进这些技术并整合各种数据源,我们可以简化药物发现过程,为新的有效治疗方案铺平道路。
【全文结束】