近年来,早期乳腺癌的新治疗方法取得了前所未有的发展。然而,迫切需要系统地实施基于生物标志物的风险分层,以防止过度或不足治疗,并选择可能从额外治疗中受益的患者。此外,浸润肿瘤间质的淋巴细胞数量(即间质TILs,sTILs)是早期三阴性乳腺癌(TNBC)的预后特征。尽管已发布指南以标准化sTIL评估,但观察者之间的差异不可避免,TIL评分在捕捉肿瘤微环境(TME)复杂性方面的能力有限。这突显了需要先进的自动化方法来解决变异并提供对肿瘤-免疫相互作用的更深入见解。此外,AI模型在不同成像平台和数据集上的性能仍然是临床采用的关键考虑因素。
研究背景
在最近发表于《eClinicalMedicine》杂志的一项研究中,研究人员比较了基于人工智能(AI)的肿瘤浸润淋巴细胞(TIL)评估模型在三阴性乳腺癌(TNBC)中的预后和分析性能。
研究方法
本研究中,研究人员比较了10种基于AI的TIL评估模型的预后和分析能力。从2012年至2016年间,106名患有原发性侵袭性TNBC肿瘤的女性患者的全组织切片(WTS)被用于研究。其中,92张幻灯片来自79名患者,用于模型的训练和内部测试。此外,215名TNBC患者(来自另一队列)的WTS和临床数据用于外部验证。
自动化的TIL评分算法是在QuPath平台上构建的。来自三个家族的模型——神经网络(NN)、K最近邻(KNN)和随机树(RT)——在10张图像的子集上进行了训练。额外的训练场景包括增加患者样本的数量(20、30等)。每种方法表示为aMN,a,其中M是方法的名称(例如,KNN),N是训练样本的数量。
每个图像包含约450个细胞的手动注释,至少有150个淋巴细胞和150个肿瘤细胞。其余细胞为间质或其他亚型。研究人员采用了“人在回路”策略进行模型训练,涉及迭代手动注释和准确性检查,以实现最佳分类器性能。这种方法确保了模型准确反映了TILs的异质性。
除了这些模型外,还包括了三种先进的深度学习方法——CellViT、HoverNet和Abousamra模型,以提供最先进的技术的对比分析。数字TIL得分使用easTILs公式计算,除了Abousamra模型外,该模型使用预测为淋巴细胞区域的百分比作为TIL评分。病理学家的手动sTIL评分与数字sTIL评分之间的相关性通过Spearman相关系数确定。
单变量和多变量Cox回归分析评估了调整年龄、组织学分级、淋巴结状态和肿瘤大小后的TIL评分的预后价值。HoverNet和CellViT模型在PanNuke数据集上进行了预训练,该数据集涵盖了19种组织类型的超过20万个核,使这些模型能够实现细粒度的细胞分割和分类。
研究结果
研究团队开发了七种模型(KNN10、NN10、RT10、NN20、NN30、NN40和NN50)。在内部验证集中,RT10和KNN10的TIL评分分布最广,而NN模型的分布相当且一致。相比之下,CellViT和HoverNet的分布最窄,而手动评分和Abousamra模型的分布最广。不同模型的数字sTIL评分与手动sTIL评分的相关性各不相同。
RT10在训练样本有限的模型中表现出最佳相关性;KNN10表现出中等相关性,而NN10的相关性稍好。随着样本数量的增加,相关性逐渐提高。CellViT和HoverNet表现出第二好的相关性。然而,在内部和外部验证集之间出现了显著差异,所有方法在外部队列中的表现均有所下降。
成像平台的差异(耶鲁大学的Leica Aperio系统与SCAN-B的NanoZoomer平台)可能是导致这些差异的原因之一。在外部验证队列中,所有方法的TIL评分分布都变得更窄,所有相关系数的值也下降。尽管如此,RT10仍表现出最佳相关性,而KNN10的相关性最低。此外,增加样本量并未改善相关性,这与内部队列的情况不同。
进一步,研究在外部验证队列中调查了模型与患者结局的关联,以侵袭性疾病无病生存期(IDFS)为临床终点。IDFS定义为从诊断到因任何原因死亡或乳腺癌相关事件的时间。在单变量Cox回归分析中,除Abousamra模型外,所有模型均显示出显著结果,并具有相似且重叠的风险比。多变量分析得出了类似的结果,尽管CellViT和Abousamra模型的结果接近非显著。研究指出,连续TIL评分提供了比基于截断点的评分更稳健的预后分析,因为各方法之间的分布存在变异性。
结论
总之,研究人员评估了10种基于AI的TIL模型相对于IDFS的预后和分析能力。其中,七种模型是新开发的,三种是预训练的验证模型。就分析性能而言,即使在训练更多样本的情况下,AI模型仍能达到中等到良好的相关性,尽管类似架构的模型(如NN10-50)具有高相关性。然而,研究强调了内部和外部性能之间持续存在的差距,强调了严格外部验证的必要性。
这些模型在外部队列中的性能下降;增加训练样本量并未改善相关性。尽管如此,几乎所有模型的数字TIL的预后潜力仍然显著,即使对于训练样本量较小的模型也是如此。研究还强调,为了临床采用,AI模型必须提供透明性和可解释性,使临床医生能够理解和信任预测结果。这包括能够在分割输出中直接审查错误分类的细胞。
总体而言,研究人员强调了大型、多样化的多中心数据集的重要性,这些数据集可以作为标准化和验证AI模型的基准。这些数据集对于确保临床兼容性和消除与模型特定偏差相关的风险至关重要。
(全文结束)


