斯坦福大学医学院的研究人员开发了一种方法,可以挖掘免疫系统中存储的丰富内部数据库,用于诊断多种疾病,如糖尿病、COVID-19和流感疫苗反应。虽然他们设想这种方法可以同时筛查多种疾病,但基于机器学习的技术也可以优化用于检测复杂的、难以诊断的自身免疫性疾病,如狼疮。
在这项研究中,研究人员分析了近600人的数据,其中一些人是健康的,另一些人患有感染(包括COVID-19)或自身免疫性疾病(包括狼疮和1型糖尿病)。研究人员开发的算法称为Mal-ID(用于免疫学诊断的机器学习),仅基于B细胞和T细胞受体序列和结构,成功识别了每个人的具体疾病状态。
“我们目前使用的诊断工具包并没有充分利用免疫系统内部记录的疾病遭遇信息。但是我们的免疫系统通过B细胞和T细胞不断监控身体,这些细胞就像分子威胁传感器一样工作。结合来自免疫系统的两个主要分支的信息,可以让我们更全面地了解免疫系统对疾病的反应以及自身免疫和疫苗反应的路径。”博士后学者Maxim Zaslavsky说道。
Zaslavsky和Erin Craig是这项研究的主要作者,该研究于2月20日发表在《科学》杂志上。病理学教授Scott Boyd博士和遗传学及计算机科学副教授Anshul Kundaje博士是该研究的高级作者。
除了帮助诊断棘手的疾病外,Mal-ID还可以跟踪癌症免疫疗法的反应,并以有助于指导临床决策的方式对疾病状态进行分类。研究人员相信,Mal-ID可以帮助识别特定条件的亚类,这可能会为治疗提供线索。
“我们观察到的一些条件在生物学或分子水平上可能有显著差异,但我们用广泛的术语描述它们,这些术语不一定能反映免疫系统的特异性反应。”共同领导Sean N. Parker过敏和哮喘研究中心的Boyd说,“Mal-ID可以帮助我们识别特定条件的亚类,这可能会为治疗提供线索。”
为了测试他们的理论,科学家们使用了基于大型语言模型的机器学习技术,这些模型类似于支持ChatGPT的技术,以聚焦免疫细胞(称为T细胞)上的威胁识别受体和另一种免疫细胞(称为B细胞)产生的抗体(也称为受体)的活性端。这些语言模型在大量数据集(如书籍和网站的文本)中寻找模式。经过足够的训练,它们可以利用这些模式预测句子中的下一个单词,以及其他任务。
在本研究中,科学家们应用了一个训练于蛋白质的大规模语言模型,向模型输入了数百万个B细胞和T细胞受体序列,并使用它将共享关键特征的受体归类在一起——根据模型确定的特征,这些特征可能表明相似的结合偏好。这样做可以揭示是什么触发了一个人的免疫系统动员——产生大量T细胞、B细胞和其他免疫细胞来攻击真实的和感知到的威胁。
“这些免疫受体的序列高度可变。”Zaslavsky说,“这种变异性帮助免疫系统几乎可以检测任何东西,但也使我们更难解释这些免疫细胞的目标。在这项研究中,我们询问是否可以通过一些新的机器学习技术解读这些高度可变的信息,从而解码免疫系统对这些疾病遭遇的记录。这个想法并不新鲜,但我们一直缺乏一种强大的方法来捕捉这些免疫受体序列中的模式,以指示免疫系统正在应对什么。”
B细胞和T细胞代表了免疫系统的两个独立分支,但它们制造识别病原体或需要消除的细胞的蛋白质的方式是相似的。简而言之,细胞基因组中的特定DNA片段会随机混合和匹配——有时还会添加额外的突变来增加多样性——以创建编码区域,当蛋白质结构组装时,可以生成数万亿个独特的抗体(对于B细胞)或细胞表面受体(对于T细胞)。
这一过程的随机性意味着这些抗体或T细胞受体并不是专门设计来识别入侵者表面的特定分子。但它们令人眼花缭乱的多样性确保至少有几个会结合几乎所有外来结构。(自身免疫,即免疫系统对自身组织的攻击,通常——但并非总是——通过T细胞和B细胞在早期发育过程中经历的一种调节过程来避免,这种过程消除了有问题的细胞。)
结合刺激细胞制造更多自身,以发动全面攻击;随后,具有匹配受体的细胞频率增加,提供了免疫系统针对哪些疾病或状况的生物指纹。
为了测试他们的理论,研究人员收集了一个超过1600万个B细胞受体序列和超过2500万个T细胞受体序列的数据集,这些序列来自593人,分为六种不同的免疫状态:健康对照组、SARS-CoV-2感染者(导致COVID-19的病毒)、HIV感染者、最近接种过流感疫苗的人以及患有狼疮或1型糖尿病(均为自身免疫性疾病)的人。Zaslavsky和他的同事然后使用他们的机器学习方法来寻找相同条件下人群之间的共同点。
“我们比较了片段使用频率、生成蛋白的氨基酸序列以及模型表示的受体‘语言’等特性。”Boyd说。
T细胞和B细胞协同工作
研究人员发现,T细胞受体序列提供了关于狼疮和1型糖尿病最相关的信息,而B细胞受体序列在识别HIV或SARS-CoV-2感染或最近接种流感疫苗方面最具信息量。然而,在每种情况下,结合T细胞和B细胞的结果都提高了算法准确分类人们疾病状态的能力,无论性别、年龄或种族如何。
“传统方法有时难以找到看起来不同但识别相同目标的受体群。”Zaslavsky说,“但这是大规模语言模型擅长的地方。它们可以学习免疫系统的语法和上下文线索,就像它们掌握了英语语法和上下文一样。这样,Mal-ID可以生成对这些序列的内部理解,为我们提供以前未曾有过的见解。”
尽管研究人员只在六种免疫状态下开发了Mal-ID,但他们设想该算法可以快速适应识别许多其他疾病和状况的免疫特征。他们特别感兴趣的是像狼疮这样的自身免疫性疾病,这类疾病很难诊断和有效治疗。
“患者可能需要多年才能得到诊断,即使如此,我们给这些疾病的名称也是笼统的术语,忽略了复杂疾病背后的生物学多样性。”Zaslavsky说,“如果我们能用Mal-ID解开狼疮或类风湿关节炎背后的异质性,那将具有重要的临床影响。”
Mal-ID还可能帮助研究人员为许多情况确定新的治疗靶点。
“这种方法的美妙之处在于,即使我们一开始并不完全知道免疫系统针对的分子或结构是什么,它仍然有效。”Boyd说,“我们仍然可以通过看到人们反应中的相似模式获得信息。通过深入研究这些反应,我们可能会发现新的研究和治疗方向。”
(全文结束)


