新AI方法破解基因组数据学习曲线New AI Method Decodes Genomic Data Learning Curve

环球医讯 / AI与医疗健康来源:www.miragenews.com澳大利亚 - 英语2025-01-07 00:04:00 - 阅读时长3分钟 - 1103字
来自耶路撒冷希伯来大学的研究团队引入了一种名为“可注释性”的新框架,通过监测深度神经网络的训练动态,解决了生物研究中细胞注释不准确的问题,从而改进了单细胞和空间组学数据的解释,为疾病诊断和治疗提供了新的工具。
基因组数据人工神经网络可注释性单细胞空间组学细胞异质性疾病诊断健康发育通路细胞状态错误注释生物信号深度学习耶路撒冷希伯来大学自然计算科学
新AI方法破解基因组数据学习曲线

新AI方法破解基因组数据学习曲线

来自耶路撒冷希伯来大学(The Hebrew University of Jerusalem)的研究团队引入了一个强大的新框架——“可注释性”(Annotatability),旨在解决生物学研究中的一个重大挑战,即通过检查人工神经网络如何学习标记基因组数据来进行研究。基因组数据集通常包含大量的已标注样本,但其中许多样本标注不正确或存在模糊性。借鉴自然语言处理和计算机视觉领域的最新进展,该团队以非常规方式使用了人工神经网络(ANNs):不是仅仅用它们进行预测,而是检查它们学习标记不同生物样本的难度。类似于评估学生为何觉得某些例子更难,研究团队利用这一独特信息识别细胞注释中的不匹配,改善数据解释,并揭示与发育和疾病相关的关键细胞通路。“可注释性”提供了一种更准确的方法来分析单细胞基因组数据,具有显著推进生物研究的潜力,并有望在长期内改善疾病诊断和治疗。

由Jonathan Karin、Reshef Mintz、Dr. Barak Raveh和Dr. Mor Nitzan领导的新研究表明,通过监控深度神经网络的训练动态,可以解释单细胞和空间组学数据中的固有注释模糊性,并提出了一种理解复杂生物数据的新方法。这项研究发表在《自然计算科学》(Nature Computational Science)上。

单细胞和空间组学数据已经彻底改变了我们探索健康和疾病中细胞多样性和细胞行为的能力。然而,这些高维数据集的解释颇具挑战性,主要是因为难以将离散且准确的注释(如细胞类型或状态)分配给异质细胞群体。这些注释往往是主观的、嘈杂的和不完整的,使得从数据中提取有意义的见解变得困难。

研究人员开发了一个新框架——“可注释性”,帮助识别细胞注释中的不匹配并更好地表征生物数据结构。通过监控深度神经网络在已标注数据上的训练动态和难度,“可注释性”识别出细胞注释模糊或错误的区域。该方法还突出了中间细胞状态及细胞发育的复杂连续性。

作为研究的一部分,团队引入了一种信号感知图嵌入方法,使生物信号的下游分析更加精确。这种技术捕捉到与目标信号相关的细胞群落,促进了细胞异质性、发育通路和疾病轨迹的探索。

研究表明,“可注释性”适用于多种单细胞RNA测序和空间组学数据集。重要发现包括识别错误注释、划分发育和疾病相关细胞状态以及更好地表征细胞异质性。结果表明,该框架在解开复杂的细胞行为方面具有巨大潜力,有助于深入理解健康和疾病中的单细胞水平现象。

研究人员的工作标志着基因组数据分析的重大进步,提供了一种强有力的工具来揭示细胞多样性并增强我们研究健康和疾病动态的能力。


(全文结束)

大健康
大健康