新AI模型提高疾病相关基因组预测能力New AI model improves prediction power for genomics related to disease

环球医讯 / AI与医疗健康来源:phys.org美国 - 英语2024-11-12 05:00:00 - 阅读时长3分钟 - 1223字
洛斯阿拉莫斯国家实验室开发的新AI模型EPBDxDNABERT-2通过整合DNA呼吸特征显著提高了基因组中转录因子结合位置的预测准确性
新AI模型疾病基因组预测转录因子DNA呼吸深度学习药物开发Venado基因表达
新AI模型提高疾病相关基因组预测能力

为了理解DNA在疾病中的作用,洛斯阿拉莫斯国家实验室的科学家们开发了首个此类多模态深度学习模型EPBDxDNABERT-2,该模型能够确定转录因子(调节基因活动的蛋白质)与DNA之间的确切关系,利用了DNA的一种特性——DNA呼吸,即双螺旋结构自发地打开和关闭。该模型有可能帮助设计用于治疗由基因活动引发的疾病的药物。

“有多种类型的转录因子,而人类基因组是难以想象的巨大,”论文第一作者、洛斯阿拉莫斯研究员Anowarul Kabir说,“因此,有必要找出哪种转录因子结合到极其长的DNA结构上的哪个位置。我们尝试用人工智能,特别是深度学习算法来解决这个问题。”

基于DNA训练的深度学习模型

每个细胞中都包含相当于30亿个英文字母的DNA,提供了人类生命如何生长和维持的蓝图。转录因子会结合到DNA的部分区域,影响基因表达的调控:即特定基因如何提供细胞发育和功能的具体指令。由于这种表达可以表现为疾病,如癌症,预测结合特定基因位置的转录因子可能对药物开发具有重要意义。

研究团队使用的基线模型是在DNA序列上训练的。他们构建了一个DNA模拟程序,捕捉了许多DNA动力学,并将其与基因组基础模型集成,最终形成了EPBDxDNABERT-2,该模型能够处理跨越染色体的基因组序列,并将相应的DNA动力学作为输入。其中一种输入是DNA呼吸,即DNA双螺旋结构的局部和自发开闭,这与转录活性(如转录因子结合)相关。

“将DNA呼吸特征与DNABERT-2基础模型集成,极大地增强了转录因子结合预测的准确性,”洛斯阿拉莫斯研究员Manish Bhattarai说,“我们将DNA代码段作为输入提供给模型,并询问模型这些代码段是否结合到转录因子,或不结合,跨多个细胞系。结果提高了结合特定基因位置的许多转录因子的预测概率。”

使用Venado进行AI算法

研究团队在实验室最新的超级计算机Venado上运行了他们的深度学习模型,该计算机结合了中央处理器和图形处理器,以推动人工智能能力。深度学习模型的工作方式类似于大脑的神经网络,结合图像和文本,发现复杂模式以生成预测和见解。

为了训练模型,团队使用了来自690个实验结果的基因测序数据,涵盖了161种不同的转录因子和91种人类细胞类型。他们发现,EPBDxDNABERT-2在一个关键指标上显著提高了9.6%,预测了超过660种转录因子的结合。进一步的体外数据集实验,即在受控环境中进行的实验,补充了从活体生物(如小鼠)直接获得的自然数据集。

研究团队发现,虽然仅凭DNA呼吸几乎可以准确估计转录活性,但多模态模型可以提取结合基序,即转录因子结合的特定DNA序列,这是解释转录过程的关键元素。

“正如其在多个多样数据集上的表现所示,我们的多模态基础模型表现出多功能性、稳健性和有效性,”Bhattarai说,“该模型标志着计算基因组学的重大进展,提供了一种分析复杂生物机制的先进工具。”


(全文结束)

大健康
大健康