洛斯阿拉莫斯国家实验室的研究人员开发了一种突破性的深度学习模型,旨在分析转录因子与基因活性之间的复杂关系。这一新的AI模型利用深度学习来理解转录因子与DNA结合的过程,特别关注DNA呼吸过程。这种创新方法在预测转录因子结合方面提高了9.6%,提供了可能改变药物开发和基因组研究的见解。
革命性的疾病研究AI模型
为了更好地理解DNA在疾病中的作用,洛斯阿拉莫斯国家实验室的科学家们开发了EPBDxDNABERT-2,这是一种开创性的多模态深度学习模型。该模型旨在精确识别转录因子(调节基因活性的蛋白质)与DNA之间的相互作用。EPBDxDNABERT-2利用一个称为“DNA呼吸”的过程,即DNA双螺旋结构自发地打开和关闭,使模型能够捕捉这些微妙的动力学。这一能力有望增强针对基因活性相关疾病的药物设计。
“有许多类型的转录因子,而人类基因组极其庞大,”洛斯阿拉莫斯的研究员Anowarul Kabir解释说,“因此,有必要找出哪个转录因子结合到DNA结构的哪个位置。我们尝试用人工智能,特别是深度学习算法来解决这个问题。”
利用DNA动力学增强药物开发
DNA由每个细胞中相当于30亿个英文字母的序列组成,充当生长和功能的蓝图。转录因子结合到DNA区域,调节基因表达——即基因如何指导细胞发育和功能。这种调节在疾病(如癌症)中起着重要作用,因此准确预测转录因子结合位置可能对药物开发产生重大影响。
研究团队使用的基线模型是在DNA序列上训练的。他们构建了一个DNA模拟程序,捕获了许多DNA动力学,并将其与基因组基础模型集成,最终形成了EPBDxDNABERT-2,该模型能够处理跨越染色体的基因组序列,并将相应的DNA动力学作为输入。其中一个输入是DNA呼吸,即DNA双螺旋结构的局部和自发开闭,这与转录活性(如转录因子结合)相关。
“将DNA呼吸特征与DNABERT-2基础模型整合大大提高了转录因子结合预测的准确性,”洛斯阿拉莫斯研究员Manish Bhattarai说,“我们将DNA代码片段作为输入提供给模型,并询问模型是否在多个细胞系中结合到转录因子。结果提高了结合特定基因位置的许多转录因子的预测概率。”
利用超级计算机进行基因组分析
研究团队在其最新的超级计算机Venado上运行了他们的深度学习模型,该计算机结合了中央处理器和图形处理器,以推动人工智能能力。深度学习模型的工作方式类似于大脑的神经网络,结合图像和文本,发现复杂的模式,生成预测和见解。
为了训练模型,团队使用了来自690个实验结果的基因测序数据,涵盖了161种不同的转录因子和91种人类细胞类型。他们发现,EPBDxDNABERT-2在一个关键指标上显著提高了9.6%——即超过660种转录因子的结合预测。进一步的实验使用了体外数据集,这些数据集来自受控环境中的实验,补充了体内数据集,即直接从活体生物(如小鼠)研究中提取的数据。
多模态计算基因组学的前景
研究团队发现,虽然单独的DNA呼吸可以几乎准确地估计转录活性,但多模态模型可以提取结合基序,即转录因子结合的具体DNA序列——这是解释转录过程的关键元素。
“正如其在多个多样数据集上的表现所示,我们的多模态基础模型展示了多功能性、鲁棒性和有效性,”Bhattarai说,“这一模型标志着计算基因组学的重大进展,提供了一种分析复杂生物机制的 sophisticated 工具。”
参考文献:“通过将DNA呼吸与深度学习基础模型整合,提高人类转录因子全基因组结合预测” by Anowarul Kabir, Manish Bhattarai, Selma Peterson, Yonatan Najman-Licht, Kim Rasmussen, Amarda Shehu, Alan R Bishop, Boian Alexandrov 和 Anny Usheva, 2024年9月13日,《核酸研究》。DOI: 10.1093/nar/gkae783
这项工作得到了美国国立卫生研究院和国家科学基金会的支持。
(全文结束)


