Hemorica:用于自动脑出血分类分割与检测的综合性CT扫描数据集Hemorica: A Comprehensive CT Scan Dataset for Automated Brain Hemorrhage Classification, Segmentation, and Detection

环球医讯 / 心脑血管来源:arxiv.org伊朗 - 英语2025-10-01 14:28:57 - 阅读时长18分钟 - 8689字
本文介绍Hemorica数据集,这是一个包含372例头部CT扫描的公开医学影像资源,数据采集于2012至2024年间,针对五种颅内出血亚型提供患者级与切片级的精细标注,包括分类标签、边界框及二维三维分割掩模;该数据集采用双人标注流程并经神经外科医生裁定,统计分析证实其临床真实性;基准测试显示轻量级模型MobileViT-XS在二元分类中达到87.8%的F1分数,U-Net与DenseNet161组合在病变分割中取得85.5%的Dice分数;Hemorica支持多任务学习与课程学习,为开发基于AI的颅内出血检测与量化系统提供统一基准,有望提升急诊环境中脑出血诊断的准确性与效率,减轻全球特别是中低收入国家的脑卒中负担。
脑出血颅内出血计算机断层扫描医学影像数据集出血分类出血检测出血分割深度学习Hemorica数据集健康风险
Hemorica:用于自动脑出血分类分割与检测的综合性CT扫描数据集

摘要

及时诊断计算机断层扫描(CT)上的颅内出血(ICH)仍是临床重点,但稳健的人工智能(AI)解决方案的开发仍受碎片化公共数据的阻碍。为填补这一空白,我们推出Hemorica,这是一个公开可用的372例头部CT检查集合,数据采集于2012年至2024年。每项扫描均已对五种ICH亚型——硬膜外(EPH)、硬膜下(SDH)、蛛网膜下腔(SAH)、脑实质内(IPH)和脑室内(IVH)——进行了详尽注释,提供患者级和切片级分类标签、亚型特异性边界框、二维像素掩模和三维体素掩模。在初步共识阶段后,通过双阅读工作流程并由神经外科医生裁定,保持了较低的评分者间变异性。全面的统计分析证实了该数据集的临床真实性。为建立参考基准,标准卷积和变换器架构针对二元切片分类和出血分割进行了微调。仅通过最小微调,如MobileViT-XS等轻量级模型在二元分类中达到了87.8%的F1分数,而使用DenseNet161编码器的U-Net在二元病变分割中达到了85.5%的Dice分数,这验证了注释质量和样本量的充分性。因此,Hemorica提供了一个统一的、细粒度的基准,支持多任务和课程学习,有助于转移到更大但弱标记的队列,并促进基于AI的ICH检测和量化系统的设计过程。

关键词 脑出血、计算机断层扫描、医学影像数据集、出血分类、出血检测、出血分割、深度学习

1 引言

颅内出血(ICH)已被公认为全球主要健康负担,特别是在中低收入国家,它是成人死亡和长期残疾的主要原因之一。尽管出血性卒中比缺血性卒中的发病率低,但ICH的社会和经济影响更为深远。作为第二常见的卒中形式,ICH构成危及生命的神经科急症,对特定人群和区域的影响尤为严重。老年人、男性以及居住在中低收入国家的人群中,报告的发病率一直较高,亚洲人群表现出特别高的风险。已确定的多种危险因素包括高龄、男性、亚洲族裔、慢性肾病、脑淀粉样血管病和脑微出血。ICH的严重性进一步体现在其不良临床结局上,发病后第一个月死亡率高达40%,一年内死亡率超过50%。令人担忧的是,仅12%至39%的幸存者能够恢复长期功能独立性,这突显了迫切需要有针对性的预防和干预策略。

ICH根据出血位置分为五种主要亚型:硬膜外出血(EPH)、硬膜下出血(SDH)、蛛网膜下腔出血(SAH)、脑实质内出血(IPH)和脑室内出血(IVH)。EPH和SDH属于脑外轴出血,发生在脑实质外,而SAH、IPH和IVH属于脑内轴出血,涉及脑组织或脑室系统内的出血。这些亚型在病因、影像特征和临床结局方面各不相同。EPH在CT上通常表现为双凸高密度区域,常与颅骨骨折相关。SDH的密度随病程变化,通常由外伤或凝血功能障碍引起。SAH涉及蛛网膜下腔出血,通常由外伤或动脉瘤破裂导致。IPH的特点是直接出血到脑实质内,通常与高血压、血管异常或头部损伤有关。IVH占所有卒中的0.31%和自发性颅内出血的3.1%,涉及脑室系统及其周围室管膜衬里的非创伤性出血,不明确涉及脑组织,通常与高血压、动静脉畸形、动脉瘤、烟雾病、凝血障碍或成人中的动静脉瘘相关,而在早产儿中更为常见。

ICH的及时准确诊断对于启动有效临床干预和降低严重残疾或死亡风险至关重要。计算机断层扫描(CT)因其快速采集时间和在检测急性颅内出血方面的高诊断敏感性,一直是急诊环境中的标准影像模式。在CT扫描放射照片中手动诊断ICH病变一直被认为耗时且依赖训练有素的专业人员。除了这些限制外,传统手动方法如常用于估计出血病变体积的ABC/2方法,已被证明高估了病变大小约30%。然而,随着AI辅助工具的发展,计算机辅助诊断现在可以在临床环境中实施,以提高诊断的效率和准确性。通过自动分割病变区域,基于AI的工具提供了更精确计算出血体积的潜力,从而解决了手动诊断技术的关键局限性。

可靠AI诊断系统的进步一直受到重大障碍的阻碍,主要由于碎片化和非公开的数据集。例如,文献中提出的一种深度学习模型显示,与标准工作流程相比,中位诊断时间减少了96.3%。然而,底层数据集缺乏公开获取阻碍了可重复性和更广泛实施,从而限制了此类创新的转化潜力。然而,AI驱动的ICH诊断解决方案的前景与全面高质量数据集的可用性紧密相关——这一需求在很大程度上仍未得到满足。大多数现有数据集存在若干关键限制,包括CT扫描数量相对较少以及支持稳健AI模型开发的注释研究量不足。在许多情况下,放射图像质量欠佳,注释协议缺乏标准化,通常依赖于不一致或加速的标记程序。因此,最终注释中的冲突很常见,导致地面真值数据的准确性和可靠性降低,从而限制了训练模型的泛化能力和临床适用性。一些数据集保持私有状态,阻碍了协作进展和基准测试。在公开资源中,CQ500数据集和RSNA颅内出血检测挑战数据集提供了大样本量,但缺乏细粒度注释——如边界框和分割掩模——这些对于可解释的模型输出以及实现2D和3D分割和目标检测至关重要。此外,某些数据集仅提供患者级标签或切片级注释,限制了模型准确定位出血病变的能力。一些较新的数据集未能涵盖出血亚型的完整谱系,从而限制了其在识别特定出血类别方面的效用。尽管某些数据集中提供了粗略的边界框注释,但尚未建立用于基准测试的标准测试协议。最后,一些数据集样本量小且出血病因多样性有限,进一步限制了其泛化能力。

为弥合这些差距,Hemorica被引入,这是一个公开可用的脑出血CT数据集,具有高质量、细粒度的注释,涵盖切片级边界框、2D掩模和用于多种出血亚型的3D体素级标签,数据来自伊朗拉苏尔·阿克拉姆医院。在本文中,我们对我们的数据集与现有公共资源进行了全面的比较统计分析,突显了Hemorica如何克服先前的限制。我们还通过定义一系列计算机视觉任务(包括图像分类和分割)来展示其多功能性。

与PhysioNet CT-ICH数据集相比,Hemorica在出血体素的分布上显示出不同的强度特征。虽然两者都显示双峰分布,但PhysioNet的第二个峰值出现在较低的HU范围内——比平均脑体素强度更暗。这表明数据收集或潜在的注释或采集协议可能存在差异。这些强度特征为预处理策略提供了重要见解,特别是在确定适当的窗口设置方面。它们还突显了HU特征在出血分类、检测和分割下游建模中的相关性。

条件概率提供了一种理解一个事件在另一个事件已发生的情况下发生的可能性的方法。在此背景下,我们使用条件概率来估计颅内出血的一种亚型(例如,IVH)与另一种亚型(例如,IPH)在同一位患者或切片中共同发生的频率。这表示为P(m|n),意为"在亚型n存在的情况下亚型m的概率"。

表1显示了从四个数据集(Hemorica、RSNA、PhysioNet CT-ICH和CQ500)得出的患者级条件概率。在所有数据集中,IPH经常与其他出血类型一起出现。例如,P(IPH|IVH)在Hemorica数据集中高达0.891,在CQ500中为0.893,在PhysioNet中为0.800,在RSNA中为0.748,表明在患者记录中当IVH存在时IPH经常同时出现。相比之下,EPH倾向于单独出现,共同发生值非常低。

表2中的切片级条件概率提供了更局部的视图。正如预期的那样,与患者级统计数据相比,大多数对的共同发生值有所下降,反映了出血可能出现在同一扫描的不同切片中。然而,类似的趋势得以保留。例如,IPH和IVH在切片级别上仍然经常共同发生,尽管强度较弱。同样,EPH在切片级别上与其他类型重叠最小,强化了其在空间和诊断维度上独立出现的倾向。

这些观察表明,IPH在多出血表现中充当中心和经常共存的亚型,特别是与IVH。相比之下,EPH在患者级和切片级分布中更频繁地孤立出现。这些共同发生趋势对于理解亚型相关结构、提高多标签分类性能以及指导出血检测任务中的注释协议非常重要。

2 方法学

本研究通过两大部分调查深度学习模型在Hemorica数据集上的性能。第一部分侧重于对多种分类模型的基本微调,以评估该数据集是否具备支持目标任务中有效模型训练和可靠分析的特征。第二部分遵循相同标准,侧重于评估该数据集对二元分割的适用性。

2.1 分类

在此部分,多个公认的2D分类模型在提议的数据集上进行了微调,以评估它是否表现出支持分类任务中有效学习的特征。虽然使用2D注释进行3D分类或分割在技术上是可行的,但本研究的范围限于2D模型,以切片方式评估注释质量。所选模型列表包括ResNet(18、50)、DenseNet(121、201)、EfficientNetV2(small、large)、Swin Transformer V2(tiny、small)和MobileViT(XS、S),这些模型均从ImageNet-1k初始化预训练权重,在ImageNet基准测试中被广泛认可为强性能模型。

这种架构多样性确保了基线检查考虑了不同的特征提取策略,提供了对数据集适合分类任务的可靠评估。此外,使用ResNet等基础架构的有效学习可以作为支持更复杂变体(如ResNext和SE-ResNext)潜力的指标。关于数据集准备,对于所有模型,输入图像被归一化到[0,1]范围,并调整为224 x 224像素。Hounsfield Unit(HU)值通过将窗口宽度设置为40、窗口长度设置为80限制在脑窗口内。模型的输入通过沿通道维度连接单通道灰度CT扫描两次构建,以创建模型所需的三通道输入。为建立基线性能,未对输入图像应用任何额外技术或滤波器。数据集按0.80和0.20的比例分为训练集和测试集。为避免数据泄露,采用患者级分割策略,使来自给定患者的所有切片完全保留在训练集或测试集中。此外,训练集和测试集以相似的亚型分布方式进行分割。为确保可重复性,数据分割使用固定的随机种子进行。表4展示了分类和分割任务基本微调中使用的训练集和测试集分布。

关于微调设置,所有模型使用一组一致的基本超参数进行训练。交叉熵损失和Adam优化器分别用作损失函数和优化算法。学习率对卷积模型设置为1×10⁻³,对SwinV2和MobileViT设置为1×10⁻⁴,未应用学习率调度器。对于输出激活,在任务中使用sigmoid。对于二元分类,在0.5阈值下使用精确率、召回率、F1分数和AUC评估模型性能。此外,所有实验均在配备NVIDIA GeForce RTX 4070 GPU的系统上进行。微调设置的详细规范见表5,而每个特定模型的结果(包括性能指标)在结果部分呈现,并在讨论部分进一步分析。

2.2 分割

在此部分,我们的目标与分类任务类似:评估数据集对有效学习的质量及其用于分割任务的能力。因此,模型选择、预处理、数据分割和微调配置的程序遵循与分类阶段类似的准则。对于评估,使用了两种广泛使用的分割架构:UNet和PSPNet。这两种模型都采用编码器-解码器架构。因此,为确保与分类实验的一致性并严格评估Hemorica对分割的适用性,分类任务中使用的大多数模型被重新用作分割模型的编码器。这种方法使得跨任务的直接比较成为可能,并提供了对模型在该数据集上微调时性能的连贯理解。随后,数据集准备与分类任务完全相同,微调配置总结在表5中。每个特定模型的详细结果(包括性能指标)在结果和讨论部分呈现并讨论。

3 结果

在本节中,展示了在提议数据集上微调的模型性能,以评估标准基准模型是否可以有效地在其上训练。如方法部分所述,所有实验均使用类似的基​​本超参数和训练设置进行,确保对数据集支持不同深度学习模型学习能力的一致评估。

3.1 二元分类

在此部分,展示了10个模型用于二元分类的报告,见表6。对于每个模型,结果报告为验证损失最低的前10个周期的平均值。选择验证损失作为参考标准,因为它直接反映了在未见数据上的泛化性能,而不仅仅是训练动态。为避免选择不稳定的结果,仅考虑第10个周期后的检查点,因为前10个周期通常表现出不稳定的梯度和快速变化的权重;因此,指标还不能可靠地表示模型收敛。如表所示,所有模型的精确率均超过85.8%,召回率超过79.6%,表明不同架构的有效学习。不同模型之间接近的F1分数范围(83.0%–88.9%)展示了类似且可信的性能。MobileViT S和DenseNet 121分别在ViT和CNN架构中获得最高的F1分数。在两个架构家族中,AUC均超过95.9%,突显了数据集对阈值选择的稳健性。此外,表3和表6的联合分析可以指导进一步研究中的模型选择。总体而言,所选模型的竞争性分数表明提议的数据集为二元分类提供了足够数量的信息特征,通过基本微调,所有模型的平均F1分数达到88.0%。

此外,召回率始终低于精确率的重复模式表明数据集存在固有的类别不平衡——这是颅内出血集合中众所周知的问题,其中阳性样本在切片级和像素级都代表性不足。这种不平衡在医学诊断中尤其重要,因为假阴性的成本通常超过假阳性的成本。随后,进一步的微调可以产生结果更好的模型。

3.2 二元分割

此部分侧重于展示模型用于二元分割的性能指标。表7以与分类部分相似的策略报告了精确率、召回率、Dice分数和IoU。在所有模型中,平均Dice分数为82.3%,考虑到最小微调以及使分割本质上比此类数据集中的分类更具挑战性的自然像素级类别不平衡,这是一个有希望的结果。图LABEL:fig:subtypes_area说明了IPH亚型(具有最多掩模面积的亚型)的平均掩模面积低于3100像素,仅为输入图像总面积的6%。当将表7中的分割结果与表6中的分类结果进行比较时,像素级不平衡的影响显而易见,后者在模型上表现出更高的性能。

随后,UNet家族在所有编码器上始终优于PSPNet变体。例如,与DenseNet161配对的UNet达到了0.855的Dice分数,而使用相同编码器的PSPNet达到了0.808。这种趋势对其他编码器也成立,表明UNet在二元分割任务中提取像素级细节的卓越能力。总体而言,将表6与表7进行比较显示,模型的平均召回率下降了约6.8%。然而,分类和分割结果的平均精确率相似。这表明像素级稀缺使分割任务中的像素级决策更具挑战性,这可以作为未来研究中微调策略的信号。根据结果,给定架构内(例如UNet)交换编码器导致的性能波动比固定编码器并改变整体架构要小,表明对于此任务和训练设置,骨干选择是分割准确性的主要驱动因素。

4 讨论

ICH是一种医疗急症,及时准确的诊断对于有效治疗和降低严重残疾或死亡风险至关重要。ICH的快速诊断及其原因的确定对于启动及时治疗(如血压控制、逆转抗凝或考虑神经外科干预)至关重要。ICH可能由创伤性脑损伤、 cerebrovascular disease(脑血管疾病)或先天性畸形引起,并根据颅腔内出血的解剖部位和特征进行分类。每年,美国估计有40,000-67,000名ICH患者被识别,30天病例死亡率接近40%,使ICH成为最致命的神经系统疾病之一。除了高死亡风险外,ICH还导致严重的长期健康问题;例如,超过46%的某些亚型幸存者遭受永久性认知障碍。鉴于与ICH相关的高死亡率和发病率,快速准确的基于影像的诊断至关重要。CT扫描仍然是急性颅内出血(特别是在急诊环境中)prompt detection(快速检测)最广泛使用的模式,因为它为临床医生提供了必要的诊断准确性。

在细粒度注释方面,Hemorica是首个具有足够CT扫描数量的公开可用数据集,该数据集包含多类任务(即分类、检测和分割)的全面注释,涵盖患者级和切片级水平。这使Hemorica区别于现有数据集,如RSNA,它不支持检测或分割任务;CQ500,它仅提供患者级分类标签;PHE–SICH-CT–IDS,它包括切片级二元分类和检测标签,但缺乏患者级分类所需的健康患者;以及PhysioNet CT–ICH,它不支持多类分割且缺乏检测注释,此外患者数量有限。

Hemorica中不同出血亚型的边界框和分割掩模的包含提供了详细的空间信息,使定位感知训练和模型可解释性成为可能——这些在仅分类数据集中是不可行的。此外,测试集中患者和出血亚型的分布反映了拉苏尔·阿克拉姆医院的真实临床统计数据,没有从PACS系统中预先选择特定亚型。这种真实世界的表示允许对临床环境中模型性能进行更准确的评估。此外,由于提供了分类、检测和分割的注释,Hemorica的结构促进了多任务模型和多任务学习的使用,包括顺序和级联方法。掩模注释的可用性,结合大量CT扫描和切片,为将学习模型转移到更大但弱标记的数据集(例如RSNA)提供了坚实基础,从而提高了下游任务中的样本效率。此外,注释过程经过精心设计以确保质量和一致性。它涉及两名盲法标注者和一个初步试点阶段,并由神经外科医生提供咨询,这有助于最小化评分者间变异性并增强标签的可靠性。

如数据集统计数据所示,Hemorica中CT切片的分布与包括大量CT扫描样本的RSNA数据集非常相似。这种相似性表明Hemorica中的切片级分布更准确地反映了真实世界的临床影像模式,而非切片分布较窄的数据集。此外,健康扫描与出血扫描的比例,以及健康切片与出血切片的比例,与其他公开可用数据集观察到的比例相当。这种一致性表明Hemorica中的数据收集基本标准与已建立的数据集一致。出血亚型分布的分析显示,某些类型——如EPH、SAH和SDH——在临床环境中发生频率较低,使其更难诊断。这一现象也在先前研究中观察到。出血的体素级分布显示许多病变相对较小,出血区域通常仅占每个CT体积的一小部分。从分割掩模生成的热图通过突出出血病变最常见的解剖位置,改善了空间理解。Hemorica与PhysioNet CT–ICH之间的比较显示这些热图存在显著差异。这些差异在很大程度上可归因于两个数据集中患者群体的出血根本原因,这在数据集之间的出血亚型分布差异中也得到了体现。此外,体素强度的分布(由Hounsfield Unit(HU)直方图指示)显示,Hemorica中的出血病变通常比非出血区域更亮或略亮。PhysioNet CT–ICH中也观察到类似模式;然而,在该数据集中,少数病变比周围非出血组织更暗。由于出血区域的HU值受出血年龄影响,这些变化可能反映了相对于出血发作的图像采集时间的差异。最后,出血亚型的条件概率矩阵揭示了临床上有意义的共同发生模式。某些亚型更可能一起出现(例如,IVH出血与IPH出血),而其他组合很少观察到。这些关系进一步支持了Hemorica中提供的注释的诊断一致性和临床相关性。

尽管Hemorica为ICH研究提供了全面且注释良好的资源,但仍应承认若干局限性。首先,该数据集源自单一机构——伊朗拉苏尔·阿克拉姆医院——这可能由于潜在的特定扫描仪或特定人群偏差而限制在其上训练的模型的泛化能力。为了增强数据集的多样性和稳健性,未来版本可能受益于包括来自不同地理区域和医疗保健系统的扫描的多中心合作。其次,尽管数据集包括372次CT扫描,但与RSNA等大规模数据集相比,总体样本量仍然相对较小。通过纳入更多病例和机构来扩展数据集将加强其用于训练深度学习模型的效用,特别是那些具有高容量的模型。第三,当前版本中未包含临床元数据,如事故原因、病史、患者结局、症状发作后时间和合并症。在未来的发布中整合此类信息将使预后建模成为可能,并允许进行更具临床意义的应用。

Hemorica旨在支持广泛的研究应用,并推荐了几种用例以最大化其在研究社区中的影响。鉴于其完整的注释结构——包括分类、检测和分割标签——它作为多任务学习和分层建模的理想基准。鼓励研究人员探索统一框架,可以同时或顺序执行多个任务,反映真实世界临床工作流程的多维性质。该数据集也非常适合迁移学习和预训练。在Hemorica上训练的模型可以在更大但弱标记的数据集(如RSNA)上进行微调,提高样本效率和泛化能力。此外,分割掩模为使用未标记或部分标记数据的自监督或半监督学习提供了机会。

最后,进行了两个基准评估以评估Hemorica的质量,重点关注旨在深入了解数据集特征的一般可重复实验。在两项任务中观察到的显著性能证实了Hemorica作为ICH CT扫描研究资源的可靠性。

5 结论

我们介绍了Hemorica,一个新颖的、公开可访问的急性颅内出血CT数据集,它通过提供切片级和患者级亚型标签、边界框、2D掩模和3D体素注释以及出血体积估计,克服了现有集合的关键限制。通过分类、检测和分割中的详细统计比较和基线基准测试,我们证明Hemorica不仅匹配真实世界的临床分布,还支持稳健、可解释的AI模型开发,只需最小的架构调整。经医学专家批准的评估确认了该数据集的临床有效性,而其全面的注释层次结构使得能够在更大、弱标记的队列上进行迁移、自监督和课程学习策略。未来的工作将集中在通过多中心合作扩展Hemorica以及通过患者元数据丰富它,以进一步增强其在预后建模和更广泛神经学研究中的效用。

生成式AI技术在写作过程中的使用声明

在准备手稿期间,作者使用Grammarly来改进论文的清晰度和语言。然后他们自己审查和编辑了所有材料,并对本文内容承担全部责任。

致谢

作者衷心感谢APAC研究小组提供使这项工作成为可能的计算基础设施和硬件。

【全文结束】

大健康
大健康