单细胞基因测序改变了科学家对生命最微小层面的理解。它使研究人员能够研究每个细胞的行为,尤其是在细胞面临疾病或药物治疗等挑战时。然而,尽管这项技术提供了大量细节,但它也产生了大量的数据噪声。这种噪声经常掩盖了重要的生物信号,使得准确得出结论变得困难。
解决这一问题的一个最有前景的方法是在科学期刊《自然方法》上发表的一种新方法——scNET。该系统由以色列一所大学的研究人员开发,结合了两个强大的工具:单细胞RNA测序(scRNA-seq)和蛋白质-蛋白质相互作用网络(PPI)。通过将这两者结合起来,scNET可以为你提供一个更加清晰的图景,展示基因和细胞在不同条件下的相互作用。
单细胞数据中的噪声问题
单细胞RNA测序允许你检查单个细胞内的基因活动。与旧方法不同,旧方法平均化了数百万个细胞的基因活动,而这种方法使科学家能够发现不同细胞的独特行为——即使它们属于同一组织或器官。
然而,有一个问题。记录的许多基因计数都是零。有时,这是因为基因在细胞中确实不活跃。但通常情况下,这只是技术问题——基因是活跃的,但测序方法没有检测到它。这个问题被称为“dropout”,它在数据中产生了大量的假零值。
当如此多的基因活动缺失或未记录时,研究基因如何协同工作或通路如何响应变化而激活变得非常困难。研究人员尝试使用许多统计和计算技巧来解决这个问题。
有些人使用复杂的模型来估计缺失的值,而其他人则试图将相似的细胞分组并猜测这些细胞应该表达哪些基因。这些方法有所帮助,但它们通常只专注于修复数值或分组细胞——而不是同时进行两者。
更智能的方法:用网络连接点
为了超越修补数值,科学家们开始使用蛋白质-蛋白质相互作用(PPI)网络。这些地图显示了细胞内蛋白质(基因的产物)之间的相互作用。PPI不仅捕捉到数字,还提供了真实的上下文:基因可能如何作为更大过程的一部分一起工作,如细胞分裂或免疫反应。
但是PPI也有其局限性。大多数PPI是使用结合了许多不同组织和条件信息的大数据集构建的。因此,虽然它们有用,但并不能反映特定样本(如肿瘤或患病患者的免疫细胞群)中发生的情况。
这就是将PPI与scRNA-seq结合的地方。当你将来自单细胞的动态基因活动数据引入这些静态PPI地图时,你会得到更有用的东西:一种实时查看不同生物状态下基因关系如何变化的方法。
先前的研究已经表明,混合这两种信息来源可以提高诸如寻找关键基因、预测生存率和改进细胞聚类等任务。但直到最近,还没有一种方法能够在一个地方结合所有这些功能——特别是在标记细胞类型可能未知的小数据集中。
scNET:以新的方式观察细胞和基因
scNET通过简单但强大的方式改变了游戏规则。它不仅仅关注基因,还关注细胞。这种双重视图使其能够同时学习细胞之间的相似性以及基因如何协同工作。
scNET的核心是一个图神经网络(GNN)。这种类型的人工智能模型非常适合处理网络——就像社交网络可以显示人们是如何连接的一样,GNNs可以揭示基因和细胞是如何连接的。在这个模型中,一个图表示基因相互作用(基于PPI),另一个图表示细胞之间的相似性(基于它们的基因活动谱的相似性)。
与大多数模型固定每个细胞的邻居数量不同,scNET引入了一种灵活的边注意力机制。这使得它可以学习哪些细胞真正相关,而不是强迫每个细胞链接到固定数量的其他细胞。这更好地反映了生物学实际工作的方式,其中一些细胞可能紧密相连,而另一些细胞可能独立存在。
通过从基因和细胞网络中共同学习,scNET平滑了噪声,并学习到了准确的基因和细胞嵌入——包含关键信息的紧凑表示。这些嵌入可以用于改进下游分析任务,如细胞聚类、发现基因关系和识别重要生物通路。
在癌症和免疫细胞研究中的突破
为了测试scNET的能力,研究团队专注于免疫细胞T细胞。这些细胞在对抗肿瘤中起着关键作用。但理解它们在治疗后的变化是困难的,尤其是当数据混乱时。
使用scNET,研究人员终于可以看到哪些T细胞在接受治疗后变得更加活跃。他们注意到细胞毒性行为的增加——T细胞攻击并杀死肿瘤细胞。这个见解被埋藏在原始的嘈杂数据中,但在scNET改进的分析下变得清晰。
特拉维夫大学该项目的主要博士生Ron Sheinin解释说:“scNET将单细胞测序数据与描述可能基因相互作用的网络相结合,就像社交网络一样,提供了一个不同基因如何影响和相互作用的地图。”
有了这个更好的视角,就可以检测不同的治疗方法如何不仅影响肿瘤,还影响周围的免疫细胞——这对于改善癌症疗法至关重要。
监督科学家之一Asaf Madi教授补充说:“我们专注于一群T细胞,这些免疫细胞以其对抗癌性肿瘤的能力而闻名。scNET揭示了治疗对这些T细胞的影响,以及它们如何在细胞毒性活动中变得更加活跃——由于原始数据中的高噪声水平,以前这是不可能发现的。”
生物学和医学领域的更广泛影响
scNET的潜力远远超出了癌症。通过更容易理解基因在不同条件下的行为,它可以帮助研究各种疾病——从自身免疫性疾病到神经系统疾病。它还为更有针对性的药物开发打开了大门。
共同领导该研究的Roded Sharan教授强调了更大的图景:“这是一个很好的例子,说明人工智能工具如何帮助解码生物和医学数据,使我们能够获得新的和重要的见解。目标是为生物医学研究人员提供计算工具,帮助他们了解身体细胞的功能,从而找到改善健康的新方法。”
在测试中,scNET在识别基因-基因相互作用和聚类相似细胞方面优于旧方法。它还揭示了更多具有生物学意义的通路,并更好地洞察了不同治疗方法如何影响细胞行为。
它的独特之处在于能够在不需要标记数据的情况下工作——这对于新实验来说是一个巨大的优势,在这些实验中研究人员还不知道存在的细胞类型是什么。正是这种灵活性使scNET成为研究复杂生物系统的科学家的强大工具。
随着研究人员继续扩大AI在生物学中的应用,像scNET这样的工具将成为理解和处理大量新数据的核心。它们提供了一种方法来消除噪声,更清楚地看到模式,并使我们更接近更有效和个性化的医疗。
(全文结束)


