随着年龄的增长,人体血细胞计数偏离正常范围标志着从健康到疾病的转变。造血干细胞和祖细胞(HSPCs)负责终生的多系输出,但它们在健康人群中的年龄相关变化及其诊断效用尚未得到深入表征。为此,我们引入了一个基于循环CD34+ HSPCs单细胞RNA分析的HSPC参考模型,这些样本来自148名年龄和性别分布广泛的健康个体。我们描述了生理性的循环HSPC组成,发现年龄相关的髓系偏向在老年男性中占主导地位,并定义了淋巴祖细胞中的年龄相关转录特征。此外,我们还展示了该资源在无需骨髓采样的情况下促进骨髓增生异常综合征(MDS)诊断的潜力,明确了具有异常淋巴细胞、嗜碱性粒细胞或粒细胞祖细胞频率的MDS患者类别。我们的资源为整个生命周期内的HSPC参考范围提供了见解,并有潜力推动单细胞基因组学在血液学中的临床应用。
人类外周血中观察到的HSPC状态
为了评估循环造血干细胞(cHSPCs)亚型分布和个人间差异的调控,我们结合了多重单细胞RNA测序(scRNA-seq)、批量DNA基因分型和综合临床数据(图1a)。通过识别cHSPCs RNA的3'非翻译区(UTR)中的单核苷酸多态性(SNPs),解决了多重化问题,从而实现了细胞与个体之间的精确匹配,并改善了批次效应和双细胞的控制。总体而言,我们从79名男性和69名女性中收集了cHSPCs,年龄范围为23至91岁(中位数为61.5岁)(扩展数据图1a和补充表1)。我们进行了深度靶向体细胞突变分析以识别克隆性造血(CH)案例(补充表1)。经过质量控制和过滤后,我们保留了840,104个单细胞谱,并对测序平台的批次效应进行归一化处理,合并构建并注释了一个元细胞流形模型(扩展数据图1b,c)。我们保留了626,966个CD34+单细胞用于下游分析(扩展数据图1d)。这些形成了一个丰富的状态库,与cHSPCs及其分化轨迹相关(图1b和扩展数据图1e,f)。所推导的模型再现并深化了先前对骨髓中HSPC状态的表征工作。我们注意到,虽然我们无法假设cHSPCs完全反映骨髓HSPC动态,但之前的研究以及我们自己的骨髓scRNA-seq比较支持两者之间至少存在部分兼容性(扩展数据图2和图3a)。然而,cHSPCs的一个显著特性是细胞周期基因表达的抑制(扩展数据图3b),这一点已被其他人证明。重要的是,我们发现我们的cHSPC模型在个体间是一致的。每个元细胞中贡献细胞的个体中位数为84,所有元细胞均包含至少来自47个个体的细胞。细胞状态间的表达差异大于个体间的差异,这限制了在控制每个样本的图谱状态分布时的个体特异性差异表达(扩展数据图3c,d)。总之,这些数据表明,尽管cHSPCs不能完全反映骨髓造血过程,但它们可以作为造血动力学的高度可及代理。
图1:cHSPCs的映射
a,实验设计。b,过滤低_CD34_表达元细胞后的二维均匀流形近似与投影(UMAP)注释。对于图1-3的所有后续面板,元细胞颜色表示此处的细胞状态。c,d,特定HSC TFs在CLP(右)和MEBEMP(左)分支点上的对称(c)和不对称(d)调控。每个面板显示一个基因的表达(y轴)。所有面板中的元细胞按MEBEMP谱系中_AVP_表达增加和CLP谱系中_AVP_表达减少的顺序排列(从左到右)。y轴表示每个基因的日志2分数表达。e,将BEMPs与其MEBEMP-L前体连接起来的元细胞群体(虚线)。f,参与早期BEMP分化的正负调控TFs。g,IRF8_对抗_TCF7_表达的基因-基因图,分别作为DC和T细胞分化的标志性标记。高_Acy3 NKTDP元细胞群体(虚线)被描绘出来。h,该群体表现出高水平的T细胞和DC调节因子表达,形成由具有高_TCF7_:IRF8_表达比例的NK或T细胞样祖细胞组成的梯度,同时其他T细胞标志性标记如_CD7、MAF、IL7R、TRBC2_也高表达;以及具有低_TCF7:_IRF8_表达比例的DC样祖细胞,同时其他DC标志性标记如髓系TF _PU.1_和MHC-II基因_CD74_也高表达。图a由BioRender.com创建。
完整尺寸图像
HLF, GATA3, HOXB5 和 TLE4 作为HSC TFs
我们cHSPC模型的一个标志是一个独特的HSC状态,该状态在转录上与两个主要的分化梯度相关联:第一个代表共同淋巴祖细胞(CLPs)的连续体(细分为早期(E)、中期(M)和晚期(L)状态)。第二个更常见的分支代表多能祖细胞(MPP)状态及其向粒细胞-单核细胞祖细胞(GMPs)、红细胞祖细胞(ERYPs)和嗜碱性粒细胞、嗜酸性粒细胞或肥大细胞祖细胞(BEMPs)的分化。血小板污染阻止了精确的巨核细胞祖细胞建模(扩展数据图3e),因此髓系轨迹底部的状态被标注为巨核细胞、红细胞、嗜碱性粒细胞、嗜酸性粒细胞或肥大细胞祖细胞(MEBEMPs,细分为早期(E)和晚期(L)状态)。
早期HSCs以高_AVP_和_HLF_表达为标志,先前研究表明其在骨髓和脐带血中富集自我更新能力的稀有细胞群13。我们的模型包括14,440个_HLF_和_AVP_表达的HSCs的数据,这些数据可以与独立骨髓图谱14中的细胞相匹配,表明在稳态下,PB中存在具有潜在自我更新能力的HSCs(扩展数据图3f)。进一步的功能研究需要建立这一发现。除了_HLF_和_AVP_,我们发现了14个基因,在HSCs中的表达至少比其2个直接分化分支高出1.75倍(扩展数据图3g和补充表2)。我们鉴定了几个在HSCs中富集的转录因子(TFs),包括_HOXB5_、TLE4_和_GATA3(图1c)。_GATA3_先前被报道在小鼠长期HSCs中调节自我更新15。其在人类HSCs中的作用尚未得到研究。我们注意到,虽然HSC状态由独特标记定义,这些标记在退出CLP和MEBEMP轨迹时对称下调(图1c),但它也在中间水平表达了多个谱系特异性调节因子,这些调节因子在退出HSC状态进入CLP和MEBEMP轨迹时反向不对称分叉(图1d和扩展数据图3g)。这可能表明HSCs的多能能力与多个调节因子的中间表达有关,这种表达在分化过程中得以解决。
BEMPs和NKTDPs在cHSPCs中富集
cHSPC图谱富含BEMPs。尽管经典研究将这些细胞与GMP起源联系起来,但最近的研究表明,它们至少部分来源于小鼠和人类的红细胞祖细胞7,16。我们的分析确定了一个小的元细胞群体,将BEMPs与它们的MEBEMP-L前体连接起来(图1e)。这突出了在这个假定的BEMP规范早期阶段正向或负向调控的TFs(图1f)和其他因素(扩展数据图4a)。另一个有趣的cHSPC群体包括淋巴状态,具有高_ACY3_表达和中等到低的_DNTT_水平,这种组合在人类BM中很少见但在PB中存在(扩展数据图4b)。我们观察到这个群体中关键T细胞调节因子的共变异,并且这些因子与一些标志性浆细胞样树突状细胞(pDC)调节因子呈反相关,正如比较_TCF7_和_IRF8_表达所示(图1g,h和扩展数据图4c)。因此,我们将这个群体称为自然杀伤(NK)细胞、T细胞和树突状细胞(DC)祖细胞(NKTDPs)17,18。总之,我们的cHSPCs图谱显示了丰富的祖细胞状态谱,细化了以前的分析,并且这些状态在个体之间表现出显著的一致性。这为我们基于cHSPC亚型的坚实和定量定义来解析个体间造血变异提供了机会。
cHSPC状态组成中的个体间变异
为了研究cHSPC的个体间变异,我们首先通过量化每个个体单细胞集合中的细胞状态相对频率来分析细胞状态组成(图2a)。这些频率在个体之间差异很大,如图2b所示。例如,HSCs和CLP-Ms分别占CD34+群体的平均值2.4%和12.6%,标准差分别为1.0%和6.8%。丰富的MPP和MEBEMP-E状态(平均频率分别为20.7%和37.6%)显示出较小的相对变化(标准差分别为4.9%和5.8%)。为了分析细胞状态频率在时间和采样实例中的稳定性,我们在原始采样日期一年后重新采样了20名个体。CLP(CLP-E、CLP-M、CLP-L和NKTDP)和MEBEMP(MEBEMP-E、MEBEMP-L、ERYP和BEMP)频率在同一时间内在同一个体中保持稳定(图2c)。
图2:正常cHSPC组成
a,表征cHSPC组成个体间变异及其与临床参数的相关性(方案)。b,148名健康个体的cHSPC状态频率分布箱线图(对数尺度)。百分比是根据每个个体单细胞集合中的所有CD34+细胞计算的。箱线图中心、铰链和须线分别表示中位数、第一和第三四分位数以及1.5×四分位距。离群值用圆圈标记。数字表示每个分布的平均值±标准差。c,19个生物重复样本与原始样本之间的细胞状态频率比较,针对CLP(CLP-E、CLP-M、CLP-L和NKTDP)群体(顶部)和MEBEMP(MEBEMP-E、MEBEMP-L、ERYP和BEMP)群体(底部)。红色显示对角线y=x。所有生物重复样本均在原始采样日期一年后采样。d,六名采样个体(彩色线条)在HSC-MEBEMP和HSC-CLP分化梯度上的细胞状态频率分布,每个代表健康个体中观察到的六种cHSPC组成原型(类别)之一。虚线表示研究人群中位数(黑色)和第5和第95百分位数(灰色)。底部:15个分化箱(行)中所有研究个体(列)的细胞状态富集图,聚类成六个类别(方法)。类别I和II代表相对富含淋巴祖细胞的个体,而类别V和VI代表相对缺乏淋巴祖细胞的个体。个体按每个类别中的干性排序。年龄和性别在每个个体中标明。e,CBC与细胞状态频率的相关性:%淋巴细胞(从白细胞计算,计算整个队列,左侧)、HCT(仅限男性,中心)和RDW(仅限男性,右侧)。缺失的个体缺乏足够的细胞进行分析。每种相关性的双侧置换检验P值显示在每个相关性旁边。详情参见方法中的基于置换的检验。f,年龄和性别匹配的高(红色,n=602)和正常(黑色,n=602)RDW个体中CH频率(按基因)。面板a由BioRender.com创建。
完整尺寸图像
组成控制的cHSPC表达与年龄相关
如上所述,个体cHSPC组成提供了一个沿干性和CLP或MEBEMP轴的造血动力学初步蓝图,并随年龄变化。组成标准化的基因表达谱进一步与年龄相关,使我们能够仅基于标准化基因表达预测年龄(图3e和扩展数据图6e;另见补充表5和6,了解更多关于年龄、CBC、CH和性别相关基因表达的筛选)。接下来,我们寻找在个体间共变异的基因组(签名),排除与性别相关的签名和那些表现出强批次效应的签名。这些最显著的签名包括_Lamin-A (LMNA)以及_ANXA1、AHNAK、MYADM、_TSPAN2_和_VIM_等(图3f,扩展数据图6f和补充表7)。个体_LMNA_签名表达在一个超过两倍的范围内变化(扩展数据图6g),在HSCs和早期髓系和淋巴系细胞状态中表现出高表达变异性,并在晚期MEBEMPs和CLPs中表现出一致的低表达(扩展数据图6h)。个体_LMNA_签名表达在髓系和淋巴系细胞状态中是一致的(图3g),并在我们的随访队列中保持稳定(扩展数据图6i)。我们观察到_LMNA_签名表达在淋巴系cHSPCs中随年龄增加,但在髓系cHSPCs中没有(图3h)。未来对更大队列的研究,尤其是那些丰富临床数据的研究,可以进一步探索CLPs中年龄相关的_LMNA_签名过度表达及其如何与疾病和免疫功能相关。综上所述,我们展示了除了HSPCs中白血病突变的积累外,衰老还与PB内祖细胞状态分布的变化和某些基因签名的显著表达差异相关。这种变异的机制基础及其临床影响仍有待解决。
干性和髓系签名的协调
HSPCs向MEBEMP和CLP命运的分化涉及特定转录程序的协调激活和抑制,这些程序在个体间是保守的。然而,我们对个体间基因签名表达变异的筛查表明,个体在同步这些干性和分化程序的相反效应方面有所不同。为了量化这种变异,我们在一个20×20的二项表达矩阵上比较了_AVP_(干性)和_GATA1_(MEBEMP分化)签名(补充表8)(图3i)。虽然大多数个体表现出接近对角线的动力学(例如个体N16和N86),遵循从干性到分化的典型过渡,但一些个体偏离了对角线,表明_AVP_和_GATA1_签名之间的同步偏斜。我们使用同步评分(sync-score)量化了这种偏差(即离对角线频率)。这有助于识别sync-score低至0.12的个体(例如N122和N172,图3i,顶部),表明相对于_AVP_抑制,_GATA1_的延迟激活。相比之下,表现出高sync-score的个体(例如N98和N121,图3i,底部)显示出_GATA1_表达的早期激活,这先于_AVP_的抑制。个体间的sync-score变异(扩展数据图6j)与男性的RBC水平呈正相关,并始终与MCV呈负相关(Spearman检验中RBC和MCV的P<0.01;图3j)。分析男性个体sync-score与cHSPC组成的关联表明其与ERYPs呈负相关(图3k)。总之,干性和MEBEMP分化程序协调的变异与RBC计数和体积相关。需要对更大队列进行更多研究,以探索这种协调与年龄相关的巨幼细胞性贫血的关系。
细胞减少症和MDS中的循环HSPC组成异常
骨髓恶性肿瘤的诊断需要识别克隆标志物(突变或结构变异),并通过下一代测序、聚合酶链反应、细胞遗传学、荧光原位杂交、显微镜检查和骨髓标本的流式细胞术检测和量化胚细胞和发育不良。在图4a中,我们描述了一种基于采样cHSPCs及其组成、标准化表达和拷贝数变异(CNVs)与正常参考值对比的逐步分析骨髓疾病的方法(扩展数据图7a-c)。作为概念验证,我们专注于MDS诊断。首先,我们使用来自79名健康个体的数据重建了参考模型,留出了一些正常样本用于分类器训练。然后,我们进行了额外的测序,获取了44名MDS患者和29名细胞减少症患者的数据(补充表9-11)。我们开发了一种简化的计算机内分选方案,用于量化新PB样本的cHSPC组成(扩展数据图7a,b),并用它来识别异常组成的案例(图4b,c,扩展数据图8a和方法)。分类包括在正常参考模型中罕见且未在图1中显示的亚群(GMP-L、pre-B、pro-B和MkP)。然后,我们将具有正常组成的MDS或细胞减少症样本(与参考模型匹配,组1)标记出来,并沿髓系和淋巴系谱排列。其余案例被聚类成不同的子类。尽管大多数MDS病例显示出显著较低的CLP频率(组3和4;扩展数据图8b),我们识别出一个具有高CLP频率的MDS和细胞减少症子类(组2)。其他子类包括高MPP(组4.2)、高BEMP(组4.1)和高GMP(组3)频率。这种分选方案部分区分了MDS与其他非MDS相关的细胞减少症案例,大多数细胞减少症案例表现出正常(组1)组成。具有异常CNVs的MDS案例在组2-4中富集(Fisher精确检验,P<0.004;图4d和补充表12),高RDW患者在组4中富集(扩展数据图8c)。总之,cHSPC组成揭示了可用于识别MDS子类和病理生理学的分子特征。具有正常cHSPC组成的MDS案例(组1)的分类取决于对特定cHSPC亚型内遗传和转录状态的进一步分析。
图4:应用cHSPC参考模型进行MDS诊断和亚分类
a,基于cHSPCs的scRNA-seq和参考模型的细胞减少症和MDS诊断方法示意图。b–d,细胞减少症和MDS患者的cHSPC组成和突变。b,每个条形代表一名患者的cHSPC组成。表现出正常组成的患者(方法)按淋系cHSPC频率排序(左),而表现出异常组成的患者则按组成层次聚类排序(右)。顶部标记了由组成建议的细胞减少症和MDS亚类。c,患者组成的异常得分,通过条形高度和颜色表示,编码在右侧。d,患者诊断和三种特定突变的最大CH VAF以及所有其他检测到的突变的最大VAF,颜色编码在右侧。通过scRNA检测到的拷贝数改变(CNAs)以黑色编码。e,健康供体和患者组如b所示的转录签名,进一步按性别细分(男性,左;女性,右)。因感兴趣群体中细胞计数不足而排除的个体已剔除。颜色表示临床诊断。相对于同性别健康供体的Mann-Whitney Benjamini-Hochberg调整显著性差异用星号表示(*q<0.05, q<0.01, q<0.001)。f,基于cHSPC scRNA-seq、CH VAF和CBC值预测MDS状态的分类模型的接收者操作曲线。FPR,假阳性率;TPR,真阳性率。g,健康供体和细胞减少症及MDS组如e所示的CLP-E样细胞状态频率。h,通过FACS测量的BM胚细胞计数与个体中CLP-E样cHSPC群体频率的比较。颜色表示临床诊断,如e所示。由于存在复杂核型(通过scRNA-seq检测)而从b*–g中排除的样本用箭头突出显示。所有个体(n=26)的线性拟合显示为虚线,相应的r和(双侧)P值也显示出来。
完整尺寸图像
基于PB的MDS诊断结合CBC、突变和cHSPC RNA数据
为了提高我们的诊断准确性,我们接下来从参考模型中得出了显示细胞类型内额外变异的具体基因签名(补充表13),并根据它们区分MDS和细胞减少症患者与健康供体的能力对这些签名进行评分。一组在MEBEMP-L中的MHC-II类基因、BEMP中的多能基因和MEBEMP-L中的S期基因(图4e)脱颖而出。这些签名在相同个体的不同样本中总体上是一致的(扩展数据图8d)。然后,我们将CBCs、最大变异等位基因频率(VAF)、cHSPC组成和所有前述的表达签名组合成一个特征集,作为使用标准机器学习工具构建MDS诊断分类器的基础。我们创建了两个队列:第一个(队列1)由28名MDS患者、20名细胞减少症患者和41名健康个体组成,第二个(队列2)由16名MDS患者和9名细胞减少症患者组成。我们观察到分类器训练性能(即使旨在区分MDS和细胞减少症案例)在数据集中包含正常案例时更好。分类器性能分析显示了非常高的特异性和敏感性(图4f;在队列1中区分MDS和细胞减少症的交叉验证曲线下面积(AUC)=0.93)。队列1模型在队列2(未用于分类器训练)上的表现甚至更高(AUC=0.97)。尽管队列2数据未用于分类器训练或特征选择,但在项目分析阶段对我们可用,因此我们谨慎对待,不将其视为正式验证。MDS分类器使用的最具信息量的特征是最大VAF(扩展数据图9a)。然而,即使排除VAF信息,分类器性能仍然很高(扩展数据图9b,c)。
MDS的诊断和风险分层依赖于BM胚细胞分数的量化。我们对队列1和队列2样本的分析,加上三个表现出复杂核型的MDS案例,表明我们可以从cHSPC数据中定量预测这一百分比,使用显示混合HSC和CLP状态的细胞比例(图4g,h和扩展数据图9d)。总而言之,这暗示着,经过进一步验证和测试,cHSPC分析有可能取代BM分析用于MDS诊断和风险分层,提供实质性的益处,如非侵入性随访和密切观察等待协议。我们在扩展数据图10a,b中展示了支持这一想法的两个案例研究。第一个是一名82岁的男性,在三年内表现出克隆扩增进展,伴随贫血恶化。第二个是一名65岁的女性,表现为克隆del5q,在接受来那度胺治疗后表现出完全的细胞遗传学缓解。额外的随访示例(扩展数据图10c)表明正常或异常组成在时间上的小变化,进一步支持使用cHSPCs进行非侵入性疾病进展评估的想法。
讨论
本研究使用PB CD34+细胞的scRNA-seq分析,描述了148名健康个体中cHSPCs的个体间异质性。我们队列的规模,加上现代单细胞技术的效力和分辨率以及本研究中使用的计算方法,使我们能够详细描述各种(有时是罕见的,如NKTDP和BEMP)HSPC亚群的转录程序,细化和扩充了从小型队列中获得的先前发现(图1)。我们定义了年龄和性别多样化的健康人群中cHSPC亚群频率的正常参考范围,并显示了cHSPC亚型组成在个体之间高度可变,而细胞状态本身却非常普遍(图2)。这些组成在一整年的随访期间保持稳定。未来的研究需要进一步探索和更好地定义这种组成异质性的机制和遗传基础。以目前的样本量,我们显示了已知的HSPCs中的年龄相关髓系偏向主要是男性驱动的,并且可以通过组成控制的RNA表达来推断实际年龄(图3)。
我们的数据显示,cHSPCs在转录上与其BM对应物相似(扩展数据图2和图3),除了细胞周期基因表达的减少。虽然不是BM造血的完整模型,但cHSPCs作为关键血液学过程的高度可及代理。因此,cHSPC组成和状态的个体间差异可以作为捕捉患者造血状态关键方面的工具。考虑到20世纪30年代开发的正常CBC参考范围,cHSPC正常参考(图2b)的相关性和重要性或许可以更好地理解。人群范围的CBC参考范围的开发使得能够识别许多表征不同临床实体的病理性血液状态。同样,我们的cHSPC参考可以用来表征生理和病理状态。在图4中,我们描述了一个基于我们的正常cHSPC参考识别和表征血液病理学的管道,并展示了如何将其应用于MDS诊断(包括从PB推断细胞遗传学和胚细胞计数)。我们提供了73例细胞减少症和MDS的cHSPCs的scRNA-seq数据,大大扩展了目前可用的BM MDS scRNA-seq数据集5,29,30,31,32。所描述的数据支持MDS诊断(优于非MDS相关的细胞减少症),并建议基于不同HSPC祖细胞群体的过表达对MDS进行亚分类的可能性。本研究中鉴定的MDS相关基因表达签名为研究打开了途径,可能会有助于更好地理解MDS病理生理学和药物设计策略。重要的是,需要进一步的随访、前瞻性研究中的验证和扩展到种族多样化的队列,以证明这里介绍的工具可以成为临床标准。通过获取和分析与参考相比的额外血液亚群和疾病状态,我们的参考模型的诊断潜力可能会进一步增强。实际上,scRNA-seq用于诊断必须依靠稳定且最小偏倚的细胞获取和处理技术,这些技术可以在不同的临床环境中部署,并提供一致和可靠的结果。该领域的进展是有希望的,但要达到临床标准还需要做更多的工作。
总之,我们的研究深入探讨了cHSPCs在人口水平上的基本分子生理学,揭示了年龄相关的表型,并提出了一个用于血液恶性肿瘤机制和诊断洞察的平台。这一资源以及各种其他用于血液遗传学和表观遗传学分析的工具,有可能重新定义血液学中的正常与病理状态,并为临床医生和研究人员提供从健康到疾病过渡的映射手段。
(全文结束)


