通过迁移学习克服危及生命的心律失常检测中的数据稀缺问题

Overcoming data scarcity in life-threatening arrhythmia detection through transfer learning

瑞士英文科技与健康
新闻源:Nature
2025-07-16 03:07:51阅读时长28分钟13957字
危及生命的心律失常LTA检测迁移学习数据稀缺ECGnet架构置信度评估院外心脏骤停深度学习算法可穿戴监测系统紧急干预

背景

危及生命的心律失常(LTAs)是全球范围内导致死亡的主要原因之一。增强可穿戴监测系统对LTA的检测能力具有重要意义。构建稳健的LTA检测算法的主要挑战之一是标记LTA数据的有限可用性。

方法

我们引入了一种有效的深度学习算法,用于从单导联心电图中检测院外心脏骤停应用中的LTAs。我们通过应用迁移学习方法来解决数据稀缺问题。该深度学习模型首先在一个大规模数据集(72,952条记录)上进行节律分类的预训练,然后在包含LTA事件的目标数据集(102条记录)上进行微调。

结果

我们的模型在检测LTAs时达到了92.68%的敏感性和99.48%的特异性,粒度为1.28秒。此外,引入了置信度评估程序,以便在低置信度检测的情况下启用紧急服务预警。

结论

基于迁移学习的方法有潜力显著减轻数据稀缺的影响,推动可穿戴监测系统中的LTA检测,并支持院外心脏骤停紧急情况下的快速、挽救生命的干预。

平易语言摘要

危及生命的心律失常(LTAs)是可能导致猝死的关键心脏状况,通常发生在临床环境之外。使用可穿戴设备早期检测这些事件有可能显著提高生存率。然而,由于这些罕见事件的数据有限,开发可靠的自动化检测系统仍然具有挑战性。在这项研究中,我们提出了一种深度学习模型,利用迁移学习:它最初从大量的一般心脏信号数据集中学习,随后适应特定于LTA案例的小型数据集。该模型在识别LTAs方面表现出高准确性,并为每次检测提供置信度测量。这种方法可能促进及时的紧急响应,并改善涉及猝死的真实场景的结果。

简介

危及生命的心律失常(LTAs),如心室颤动(VF)和室性心动过速(VT),是关键的公共卫生问题。这些状况扰乱了心脏正常的电活动,导致不规则且常常危险的快速心跳,从而阻碍心脏有效泵血。这会迅速导致心脏骤停或猝死。

当LTAs意外发生在医院环境之外时,它们变得尤为危险。在这种情况下,它们会导致所谓的院外心脏骤停(OHCA):心脏突然停止跳动,导致重要器官立即停止血液流动。及时识别和干预对于生存至关重要,因为每延迟一分钟除颤都会显著降低复苏成功的几率。

猝死以及因此OHCA更可能发生在患有遗传性心律失常疾病(IADs)的人群中。例如长QT综合症、布鲁加达综合症和早期复极综合症。IADs确实大大增加了LTA发展和猝死的风险。

在过去几十年中,人工智能(AI)在心脏病学领域崭露头角,为心脏病学家在诊断、治疗、风险分层和早期预测心脏疾病方面提供了有希望的进展和支持。利用机器学习(ML)和深度学习(DL)技术的人工智能算法展示了分析大量心电图(ECG)数据并以高精度识别微妙模式和异常的能力,这些异常可能逃过人类的检测。

在LTAs和OHCA的背景下,可穿戴传感器的潜在用途为这种危险状况的早期检测和管理增添了另一层创新。这些传感器,通常集成在智能手表、腰带或传感背心中,结合人工智能,可以连续监测心率和其他生命体征,并更早地检测心律失常事件,触发患者和医疗保健提供者的警报,允许及时的医疗干预。

这项研究是在欧洲项目CMIPA(E115814)框架内进行的,重点关注患有IADs的人群。其目标是提供:通过传感器化背心(即L.I.F.E. Italia S.r.l.生产的Healer TeleHealth System)进行持续监测、实时检测LTAs,以及自动向急救服务发出警报,以确保在需要时迅速干预。本研究代表了一个初步步骤:我们开发了一种强大的基于DL的算法,能够实时从单导联ECG信号中检测LTAs的存在。最终目标是将提出的算法整合到系统中,利用来自可穿戴传感器的数据。

据我们所知,这是为此特定应用开发的第一个算法。然而,我们的目标与类似但适度探索的任务相当:可电击(Sh)与不可电击(NSh)心律的分类。可电击心律包括VT和VF。这种二元分类是电击建议算法(SAA)的核心,集成在自动体外除颤器中以控制电击释放,特别是在OHCA期间。另一个相关的应用是在植入式心脏复律除颤器中识别LTAs。但是,分析方法有很大不同,因为它依赖于心内电图而不是表面心电图。

我们仅报告与Sh vs NSh心律分类相关的文献,作为参考,因为这是最接近的任务,但我们工作的任务有所不同。我们旨在识别任何LTA,无论它们是否可电击和/或导致心脏骤停。出于安全和设备设计原因,这种区分留给系统在报警事件中自动呼叫的专家救援人员。

正如Nguyen等人报道的那样,SAA可以分为基于阈值、基于智能ML和基于智能DL的方法。第一种是最简单的,但通常达到相对较低的灵敏度,无法满足美国心脏协会(AHA)对SAA性能的要求(至少90%的灵敏度和95%的特异性)。相反,基于AI的算法达到了更高的性能,符合AHA指南。文献中提出的大多数工作都可以在Nguyen等人提供的综述中找到。我们在此根据综述报告两类基于AI组中最具代表性的候选算法。对于ML组,表现最好的是在综述本身中提出的算法。作者在提取自8秒ECG信号并通过修改变分模态分解增强的特征上采用支持向量机,达到98.2%-99.8%的灵敏度-特异性。而对于DL组,Nguyen等人利用卷积神经网络(CNN)从经过修改变分模态分解增强的8秒ECG信号中提取特征,并采用提升方法进行分类,结果达到97.1%-99.4%的灵敏度-特异性。值得注意的是,综述中报告的所有算法都是用数量相当有限的ECG记录(通常大约一百条)进行训练的,这些记录是从唯一可用的开放获取数据库或按需请求数据库,或包含LTA发作的私人数据库中提取的。这可能导致新数据的高度过度拟合和低泛化性风险,由于有限主体数量固有的低异质性和低代表性。

值得一提Dahal等人的工作,因为作者结合生成对抗网络与深度神经网络来合成ECG记录。目标是增加训练集大小并提高算法性能。他们实现了96.76%-99.56%的灵敏度-特异性。而Shen等人提出的工作则是迄今为止在SAA中使用最多受试者的。实际上,通过结合公共和私人数据集,他们设法利用了总共26,464个ECG记录。使用六层CNN,他们达到了98%的灵敏度和100%的特异性。然而,这些结果是在排除冲突ECG的情况下获得的,即评分者未一致分配Sh/NSh标签的片段。之后,他们还在冲突ECG上测试了算法,得到与评分者三分之二多数分类84.4%的一致性。这突显了噪声或不精确标签对算法最终性能影响的问题。其他工作通过重新标记公开数据集解决了这个问题:原始标签由两名有经验的生物医学工程师修订。此外,进一步的工作应用筛选程序排除含有噪声、无脉电活动、过渡心律和中间心律(如缓慢VT或低幅度VF)的ECG片段,可能是由于与SAA开发相关的推荐。

尽管它们的表现令人印象深刻,但文献中的工作仍存在一些不容忽视的局限性。最常见的一个是由于训练数据集的低异质性和规模导致的有限泛化能力风险。此外,如上所述,几项工作从研究中排除了最关键的情况(例如,噪声ECG或标签、过渡心律等),导致不那么现实的评估。最后,在所有情况下,我们观察到缺乏对域外数据的算法验证,这将允许进行更公平的性能评估。然而,由于缺乏基准数据集,后者难以解决。

在这项工作中,我们的主要目标是克服这一应用领域的最主要限制:用于训练强大模型的含LTA事件的标记ECG记录的低可用性。为了实现这一点,我们建议通过利用迁移学习方法和任务转移,从属于其他任务的ECG的高可用性中获益。因此,我们的主要研究问题是,是否可以从大量的ECG数据中提取有价值的知识,并有效地将其转移到目标任务(即LTA检测)中,尽管在任务和标签等方面存在差异。首先,我们在一个临时支持任务上预训练一个DL模型,以从预训练数据集中提取信息。然后,我们利用少量含LTA事件的ECG数据集对预训练模型进行微调。在本研究中,我们不排除任何片段,并利用公开可用数据集中提供的原始标签。

进行了以下实验:(i) 比较提出的迁移学习方法与从头开始训练模型的标准方法。(ii) 寻找在目标任务上微调模型的最佳配置。(iii) 检查在微调阶段减小模型尺寸的可能性,以获得更轻量级的模型而不损失分类能力。(iv) 探索如何评估算法的预测置信度并分析稳态和过渡心律阶段。

我们的主要贡献可以总结如下。(1) 通过从未含LTA事件的其他领域数据中提取知识,可以克服LTAs-ECG数据稀缺问题。提出的迁移学习方法结合优化版本的最先进的CNN(能够达到心脏病专家水平的结果),提高了模型的泛化能力和性能。这种方法还允许在下游任务中使用更轻量版的CNN,同时几乎保持性能不变。(2) 开发了一种稳健的DL LTAs识别算法:它能够从单导联ECG中检测LTAs,粒度为1.28秒,具有高性能(92.68%的敏感性和99.48%的特异性)。(3) 包括72,952条来自71,240名不同受试者的记录,形成83,949个9秒ECG序列,是类似研究中使用的最大数据集。(4) 提出了置信度评估方法,以在LTAs发生时预警告急服务,减少假阳性和假阴性带来的负面影响。

方法

数据集和预处理

在这项研究中,我们构建了两组ECG数据:预训练数据集(PT)和微调LTA数据集(FT-LTA)。表1报告了每个数据集中受试者、记录和片段的最终数量,按子集(训练、验证和测试)划分。

PT数据集

PT数据集汇总了来自PhysioNet/计算心脏病学挑战赛2021年的四个开源数据集:宁波数据集、绍兴查普曼数据集、PTB-XL数据集和佐治亚州12导联ECG挑战数据库。

绍兴查普曼数据集研究得到了绍兴人民医院机构审查委员会(IRB)的批准,该委员会批准了豁免知情同意的申请,并允许在去标识化后公开共享数据。宁波数据集研究得到了浙江大学宁波第一医院IRB的批准,该委员会批准了豁免知情同意的要求。PTB-XL数据集由德国联邦物理技术研究所收集和整理,机构伦理委员会批准了匿名数据在开源数据库中的发布(PTB-2020-1)。所有这些数据集都包含完全匿名的回顾性数据,无需额外的IRB批准即可进行当前的二次分析。

所有这些数据集都包含采样频率为500 Hz的12导联ECG记录。宁波数据库最初包括34,905条记录(年龄范围:0-89岁,平均:57.7 ± 20.4岁,女性比例:43%),绍兴查普曼数据库包含10,646条记录(年龄范围:4-89岁,平均:60.1 ± 17岁,女性比例:44%),乔治亚数据库包含10,344条记录(年龄范围:14-89岁,平均:60.5 ± 15.4岁,女性比例:46%),PTB-XL数据库包含21,837条来自18,885名受试者的记录(年龄范围:2-89岁,平均:59.5 ± 16.8岁,女性比例:48%)。超过89岁的受试者的具体年龄因遵守HIPAA标准而不可用。所有这些数据集都包含10秒的ECG信号,除了乔治亚数据库,其实例持续时间为5秒(不到2%)或10秒。每个ECG都附有一组描述心脏诊断、形态和/或节律的标签,分配给整个记录期并通过SNOMED-CT标准编码。

从这四个数据集中,我们将包含至少一个节律标签的记录纳入PT数据集,并仅提取导联II。至于乔治亚数据库,我们排除了持续5秒的ECG。随后,删除与噪声标签或代表性不足的标签(约占剩余记录的3%)相关的ECG记录。最终数据集由来自70,138名受试者的72,850条ECG信号组成,这些信号与14种不同的节律标签组合相关(多个标签与同一记录相关)。

所有ECG信号都被重新采样至200 Hz。每个10秒记录被截断以获得由7个256样本段组成的序列(约8.96秒),以确保与预训练阶段使用的架构兼容。从每个记录关联的标签集中,我们只选择了节律标签,从而为每个序列分配一个或多个节律。信号使用截止频率为0.5和40 Hz的Butterworth四阶滤波器进行过滤。

PT数据集中的序列基于主体基础和多标签分层策略进行分割。保留了20%的数据集未用于测试。剩余的80%被划分为80%用于训练和20%用于验证。然后,数据基于训练集计算的均值和标准差进行标准化。

每个源数据集的受试者、记录和序列的数量详见补充表1,而PT标签分布可以在补充表2中找到。值得注意的是,LTAs(如室性心动过速、心室颤动)在PT记录中不存在。

FT-LTA数据集

FT-LTA数据集汇集了三个在Sh vs NSh节律分类任务中广泛使用的公开可用数据集:MIT-BIH心律失常数据库(MITDB)、MIT-BIH恶性室性异位数据库(VFDB)和克雷顿大学室性心动过速数据库(CUDB)。

所有这些数据集都包含公开可访问的、匿名的、回顾性数据,因此无需额外的IRB批准即可进行当前的二次分析。

MITDB包含48条30分钟的ECG记录,采样频率为360 Hz,来自贝斯以色列医院心律失常实验室在1975年至1979年间研究的47名受试者(46%为女性),年龄在23至89岁之间(平均63.7 ± 17.7岁)。VFDB包含22条30分钟的ECG记录,采样频率为250 Hz,记录了经历持续性室性心动过速、心室扑动和心室颤动的受试者。CUDB包含35条8.5分钟的单导联ECG记录,采样频率为250 Hz,记录了经历心室颤动的受试者。VFDB和CUDB数据集的人口统计信息(年龄和性别)不可用。对于所有三个数据集,都提供了节律注释,并带有每次节律变化的时间参考。对于MITDB,也提供了心跳标签。

为了构建FT-LTA数据集,我们提取了导联II并选择了描述心脏节律变化的标签。FT-LTA数据集总共包括104条来自经历LTAs的受试者的ECG记录。

所有记录都被降采样到200 Hz并转换为μV,以与预训练数据保持一致。每个记录被分割成7个256样本段的非重叠序列。节律标签被分为两类:LTA,包括室性心动过速(VT)、心室颤动(VF)、心室扑动(VFL)和多形性室性心动过速(PVT),以及其他,包括所有其他节律。然后,每个256样本段都关联一个唯一的类(LTA或其他),每个序列获得7个标签。在多种节律的情况下,分配最常见的类。标记为噪声的段被移除,因为无法分配明确的节律。

每个序列按照Amann等人提出的程序进行预处理,并被其他领域内的工作所采用。它包括四个步骤:均值减法、五阶移动平均滤波器、1 Hz的高通滤波器用于漂移抑制和30 Hz的低通Butterworth滤波器。1-30 Hz是AED中用于区分可电击和不可电击节律的典型监控带宽。

每一个数据集都基于主体基础分成训练集、验证集和测试集。保留了20%的数据集未用于测试,而剩下的80%被分成80%用于训练和20%用于验证。最后,整个数据集基于训练集计算的均值和标准差进行标准化。

表1报告了FT-LTA数据集中每个子集的标签分布,而补充表3还报告了每个源数据集的标签分布。

ECGnet架构

本研究中使用的架构是对Hannun等人提出的架构的改编。为简单起见,在本文中我们将其命名为ECGnet。

ECGnet

ECGnet输入的是采样率为200 Hz的单导联原始ECG信号,输出是每256个样本(1.28秒)对应12种节律类别中的1种。它是一个带有捷径连接的CNN,由16个残差块组成。每个块包括两组批归一化(BN)、修正线性(ReLU)激活和卷积层。第二个卷积层之前有一个概率为0.2的dropout层。卷积层中的滤波器数量每四个残差块翻倍,从32开始。每隔一个残差块的输入应用因子为2的下采样。最后一个块由BN、ReLU和带softmax激活的全连接(FC)层组成。最后一层FC独立应用于其输入的每个时间片,共享相同的权重。得益于这种结构,只要ECG信号包含200Hz采样的256个样本的倍数,ECGnet就可以用于任何长度的ECG信号。

有关原始架构的更多细节,请参阅参考文献。

改编:ECGnet-v0、ECGnet-v1、ECGnet-v1-M、ECGnet-v1-S

在我们的工作中,我们针对两个特定任务改编了ECGnet。

第一个预训练任务是多类分类。ECG记录与多个真值标签相关联,这些标签被分配给整个记录的持续时间。重要的是,这些标签没有特定的时间参考,意味着没有为记录内的单个事件提供开始或结束时间点。为了使ECGnet适应此任务,我们修改了最后几层,得到ECGnet-v0。我们首先用sigmoid激活函数替换softmax,以获得每个可能的10种节律类别的概率。我们还添加了一个全局最大池化层,为整个序列输出一个预测(标签集),同时保留TimeDistributed层以保持输入长度独立性。第二项任务是LTA检测任务。我们将目标类别的数量设置为两个,用于二分类LTA与其它。我们将该网络称为ECGnet-v1。ECGnet-v0和ECGnet-v1的图形表示在补充图1中提供。

在原始工作中,输入是原始数据。相反,我们将预处理后的ECG信号输入网络以减少噪声。对于训练阶段,我们将输入长度固定为7个1.28秒的段,即8.96秒的序列。因此,我们相应地截断和/或分割记录。通过这种方式,我们消除了原始工作中用于均衡所有输入大小的零填充,从而消除了一种可能的偏倚来源。我们还在创建批次前引入了数据混洗。作为损失函数,我们对ECGnet-v0和ECGnet-v1都使用了二元交叉熵损失。

关于超参数和优化算法,我们保留了参考工作中优化过的那些。利用基于验证损失的早停策略,耐心设置为30个epoch,最大训练epoch数等于500。我们将批量大小增加到512用于预训练。

对于网络闪电实验(见实验部分),我们构建了两个缩减版的ECGnet-v1:ECGnet-v1-M和ECGnet-v1-S。具体来说,我们将残差块的数量分别减少到原始大小的3/4和1/2。为了保持输入和输出维度的一致性,我们分别在每第三个或第二个残差块中将卷积层中的滤波器数量加倍,并相应调整下采样,如补充图2所示。

迁移学习

迁移学习可以用以下陈述定义:

“迁移学习和领域适应指的是在一种设置(例如,分布P1)中学到的知识被用来改进另一种设置(例如,分布P2)中的泛化”;

“给定一个源域DS和学习任务TS,一个目标域DT和学习任务TT,迁移学习旨在利用DS和TS中的知识来改进DT中的目标预测函数fT(⋅)的学习,其中DS ≠ DT且TS ≠ TT”。

这种方法尤其在目标任务标注数据有限时有益。关键思想是从具有广泛源数据的相关任务中传输已学到的表示到目标任务中,从而使模型更好地泛化并更高效地学习。这个过程可能涉及一个第二阶段的微调,在此阶段中,预训练模型进一步在目标数据上进行训练。

在这项工作中,我们利用迁移学习来解决危及生命的心律失常检测任务中标记数据可用性低的问题。我们既有领域转移(DS ≠ DT),由于源数据集和目标数据集之间的差异(不同的录制设置和硬件、受试者的统计学和临床特征、ECG属性等),也有任务转移(TS ≠ TT),节律分类作为预训练任务,危及生命的心律失常检测作为目标任务。因此,我们也进行了微调阶段,从预训练模型开始。为了避免所谓的灾难性遗忘,我们在微调过程中部分冻结了神经网络。

置信度估计

我们引入了一种方法来估计模型预测的置信度,该方法基于ECGnet每1.28秒提供一次输出的特性。这种方法在图2A中以图形方式表示。

置信度计算如下。考虑一个长度为输入大小(8.96秒,1个序列)的窗口,在ECG信号上以1.28秒的步长(1个段)滑动。将ECGnet-v1应用于每个窗口将为每个段产生7个预测。最终标签(LTA vs 其他)通过多数投票分配,置信值通过将预测最终标签的段数除以7(总段数)获得。

实验

(i) 从头训练 vs 带任务转移的迁移学习

主要实验旨在评估利用带领域和任务转移的迁移学习技术是否能提高ECGnet在LTA检测任务中的性能。换句话说,我们旨在评估利用从属于另一个领域(不同分类任务和其他ECG节律)的大量数据中学到的知识是否有助于解决目标下游任务。为此,我们将从头训练视为基线,与应用带任务转移的迁移学习进行比较。为了进行公平的比较,两种模型都在相同的数据集上进行了测试,即FT-LTA测试集。

为了构建我们的基线(ECGnet-v1 TS),我们利用ECGnet-v1来解决一个二分类任务(LTAs vs Other)。该模型使用FT-LTA训练集从头开始训练。为了解决不平衡的FT-LTA数据集问题,我们通过过采样较少代表的类(LTA)三次并对另一个类(Other)进行欠采样,使每个训练批次平衡,以使两个类中的样本数量相等。我们在与其他典型方法(加权交叉熵损失)和基线(无数据平衡)比较后选择了这种上下采样方法,并获得了最佳性能。为了完整性,使用其他两种方法获得的结果报告在补充表4和5中。

为了训练第二个模型(ECGnet-v1 TL),我们应用了涉及两个步骤的迁移学习技术:预训练和微调。

我们首先预训练ECGnet-v0以解决多标签心律失常分类任务。采用ECGnet-v0是为了适应最终部分的架构以完成多标签多类分类任务。该模型使用PT训练集进行预训练。而PT测试集则用于确保模型已经训练得足够好。

在第二阶段,与基线一样,我们采用了ECGnet-v1来解决二分类任务。在这种情况下,模型初始化为预训练模型的权重,提取自ECGnet-v0和ECGnet-v1的共同部分(即除了最后两层之外的所有层)。初始化后的ECGnet-v1然后在FT-LTA训练集上进行微调,如同基线。

(ii) 冻结配置的优化

在这个实验中,我们在微调阶段部分冻结了网络。目的是充分利用预训练期间学到的信息,以减少过拟合的风险并提高模型的泛化能力。为了在利用预训练信息(更多层冻结)和适配下游任务(更少层冻结)之间找到折衷,我们在这个实验中优化了冻结配置(ECGnet-v1 TL-opt)。我们多次进行微调,每次都用预训练权重初始化整个网络,但逐渐增加冻结的残差块数量。然后我们比较在FT-LTA验证集上的性能,选择最优的冻结残差块数量。最后,我们比较在FT-LTA测试集上采用最佳配置(ECGnet-v1 TL-opt)获得的性能与前一个实验的基线(ECGnet-v1 TS)。

(iii) 网络简化

我们还尝试减小ECGnet的大小,目的是评估拥有更轻量级网络的可能性以减少计算复杂性。鉴于FT-LTA数据集的较小规模,我们预计减小网络大小从而降低其复杂性仍能带来良好的性能,并可能减少在数据集上的过拟合风险。具体而言,我们构建了两个缩小版的ECGnet架构(ECGnet-v1-M和ECGnet-v1-S)。我们使用迁移学习协议(优化后的冻结层数)训练和测试这两个网络。我们将ECGnet-v1视为基线(在这里命名为ECGnet-v1-L)并与另外两个缩减网络(ECGnet-v1-M和ECGnet-v1-S)进行比较。我们在FT-LTA测试集上测试这三个模型。

(iv) 置信度估计

在最后一个实验中,我们测试了提出的置信度估计器,评估其与模型正确或错误预测能力的关联。我们首先在FT-LTA测试集中识别出真假阳性/阴性片段,然后分析每个组中的置信度值分布。

我们调查了模型在稳态和过渡阶段的性能和置信度,以验证大多数低置信度或误分类片段位于一种节律与另一种节律转变对应的假设。我们基于真实情况定义了稳态和过渡阶段。在过渡阶段,我们包括每次节律变化前后三个片段(LTA和其他)。所有其他片段被视为稳态。对于这两个阶段,我们分别计算并比较了模型性能及其置信度。

评估

为了评估目标任务上的性能,我们利用了以下二元分类指标:敏感性、特异性、BER、准确率、Cohen's k、加权F1分数(wF1)和宏F1分数(MF1)。MF1是每类F1值的平均值,而wF1是按各类别测试样本数量加权的平均值。BER定义为1-BAC,其中BAC是敏感性和特异性之间的平衡准确率。

如有疑问,我们主要基于MF1进行模型比较,因为它考虑了假阳性和假阴性,并考虑了两类中的性能,而不会根据可用样本数量偏向任何一个类别。

统计与可重复性

为了公平地比较不同模型的性能,我们利用了单侧Mann-Whitney U检验,设定p值为0.05。该检验通过对每次实验中使用10个训练模型获得的10个预测集合进行操作。该检验使用Python SciPy库(scipy.stats.mannwhitneyu v1.11.2)执行。

我们还通过秩双列相关系数r估计了效应大小,计算公式为\(r=1-\frac{2U}{{n}{1}\cdot {n}{2}}\),其中U是检验统计量,_n_1 = _n_2 = _n_是样本大小,等于10。

报告摘要

有关研究设计的更多信息可在与本文链接的《自然组合报告摘要》中找到。

结果

从头训练 vs 带任务转移的迁移学习

在主要实验中,我们将带任务转移的迁移学习方法(ECGnet-v1 TL)的应用与我们的基线,即标准的从头训练(ECGnet-v1 TS)进行了比较。ECGnet-v1 TS和ECGnet-v1 TL在目标FT-LTA测试集上计算的性能报告在表2的上半部分。

ECGnet-v1 TL在敏感性(+4.52%,p = 0.0481,r = 0.45)和BER(−2.32,p = 0.0226,r = −0.54)方面相对于基线显示出显著改进(p < 0.05)。对于所有其他报告的指标,Mann–Whitney U检验显示ECGnet-v1 TL不低于基线。这意味着在这种情况中采用迁移学习方法有助于解决目标任务,尤其是提高模型检测低代表性类(LTAs)的能力。

冻结配置的优化

我们还通过在微调阶段部分冻结预训练网络来优化微调。我们通过在FT-LTA验证集上测试不同配置来确定要冻结的最佳层数。我们依赖宏F1分数选择最佳值,因为该指标的全面性质。不同配置的结果,以敏感性、特异性和宏F1分数的形式展示在图1中。这些指标在补充图3中也报告了FT-LTA测试集的对比。在FT-LTA测试集上使用最佳配置(ECGnet-v1 TL-opt)获得的性能报告在表2中,并与基线和ECGnet-v1 TL(无层冻结)进行了比较。

图1:ECGnet-v1 TL在FT-LTA验证集上随冻结配置变化的敏感性、特异性和宏F1得分

x轴报告了微调阶段冻结块的数量(从无冻结块到除最后一块外所有块均冻结)。线条和阴影分别代表跨n = 10次运行的均值和标准偏差。

全尺寸图像

最佳配置(在FT-LTA验证集上)是微调阶段仅冻结前三个残差块的配置:获得了92.68%的敏感性和99.48%的特异性。这意味着模型主要利用了前几层的预训练权重,这些权重提取了更高层次的特征。这与预期相符,因为预训练和目标任务/数据之间的相似性较低。图1显示了随着冻结层数的变化,敏感性保持相对稳定。而宏F1得分和特异性则呈现出不同的趋势:只要冻结块的数量不超过13,它们就非常稳定,而当这个数字进一步增加时,它们急剧下降。这强调了微调阶段的重要性,它通过作用于未冻结层来使模型适应目标任务。尤其是在这种情况下,与直接使用预训练模型进行目标任务相比,减少了假阳性数量。

在FT-LTA测试集上使用最优模型获得的性能显示ECGnet-v1 TL-opt模型明显优于基线,且所有报告的指标均具有统计显著性(p < 0.05)。敏感性、特异性和宏F1得分分别增加了6.97%(p = 0.0009,r = 0.83)、0.6%(p = 0.0378,r = 0.48)和3.65%(p = 0.0006,r = 0.86)。这进一步证实了迁移学习是一种在预训练阶段提取有用信息的有效方法,即使目标数据集和任务与预训练阶段使用的数据集和任务有很大的不同。此外,它强调了部分冻结预训练层以避免灾难性遗忘并充分利用先前学到的信息的重要性。这也得到了补充图3中随冻结块数变化的敏感性、特异性和宏F1得分趋势的支持。这些曲线在前一部分也显示出性能下降,突显了在预训练阶段由前几个块学到的知识的重要性,这增强了模型的泛化能力。

网络精简

在这个实验中,我们评估了ECGnet-v1的大小与其分类能力之间的权衡。表3报告了在FT-LTA测试集上获得的性能。在这种情况下,我们将ECGnet-v1 TL-opt称为ECGnet-v1-L,并将其作为比较的参考。表4报告了三种模型的主要计算特性。

表3 实验(iii)的性能比较

全尺寸表格

表4 实验(iii)的计算特性比较

全尺寸表格

正如预期的那样,结果揭示了性能与架构大小之间呈反比的趋势,依据大多数报告的指标:ECGnet-v1-L是表现最好的,而ECGnet-v1-S是其一半大小。

然而,对于ECGnet-v1-M,性能下降相当有限:敏感性和BER与参考ECGnet-v1-L没有显著差异;其他指标虽然显示出统计上显著的下降,但仍报告了非常高的性能,接近参考。恶化主要集中在ECGnet-v1-S的敏感性上,我们可以注意到其均值较低且标准差较高。像特异性、加权F1得分、宏F1得分或准确率这样的指标下降相对狭窄,即使是对于ECGnet-v1-S也是如此。值得注意的是,ECGnet-v1-M的敏感性和特异性仍然高于参考AHA阈值。

还应该指出的是,模型尺寸的减小意味着推理时间从大约1秒缩短到大约0.6秒(使用ECGnet-v1-L和ECGnet-v1-S分别得出),即使低于1.28秒(1段持续时间)的推理时间已经足够保证实时预测而不延迟。

置信度估计

在本节中,我们提出并测试了一个估算ECGnet-v1检测LTAs置信度的指标。置信度计算的详细信息在第7段中报告,并在图2A中提供了图形摘要。

图2:置信度估计机制及相关结果的表示

A 置信度估计方法的图形表示。在此示例中,选定段的标签为LTA,其置信度为71.4%。B 混淆矩阵单元格中的置信值分布。这些结果是在FT-LTA测试集上使用ECGnet-v1 TL-opt模型获得的。C 在大约18秒的ECG记录摘录中,真实标签(ground truth)、ECGnet-v1预测及其置信度、错误/正确预测和ECG信号图的比较。这些结果是在FT-LTA测试集上使用ECGnet-v1 TL-opt模型获得的。

全尺寸图像

图2B显示了混淆矩阵四个象限(真正例、真负例、假正例、假负例)中置信值的分布。这些结果是使用ECGnet-v1 TL-opt模型在FT-LTA测试集上获得的。

从图2B可以看出,对于正确预测(真正例和真

负例),置信度分布极度偏向高值。特别是当置信度为1时,模型的预测几乎总是正确的。而对于错误预测(假正例和假负例),置信度则分布在所有值中。这种行为表明了置信值与预测误差之间的联系,表明这一指标可以用作模型预测置信度的指示器。

基于误分类和低置信度片段通常位于两种节律类型过渡阶段的直觉,我们比较了ECGnet-v1 TL-opt模型在FT-LTA测试集的稳态和过渡部分上的性能和置信度。上述片段在第7段中定义,结果报告在表5中。

表5 实验(iv)的性能和置信度结果

全尺寸表格

这些结果证实了模型在稳态相位上的表现明显优于过渡相位。实际上,稳态相位的性能极高,而过渡相位的表现相当差。这最有可能是由于过渡本身的性质,在这种情况下节律本身没有明确定义,因此从临床角度来看也更难定义。此外,过渡相位的置信值显著较低(p << 0.0001, r = 0.196),确认了之前的陈述以及置信度与性能下降之间的关联。

图2C展示了这种行为的一个例子。它报告了一段约九秒的ECG记录的真实标签(ground truth)、模型预测及其置信度、模型提供错误预测的片段以及ECG信号图。

因此,为了提高模型的敏感性,我们应该专注于过渡时期。例如,可以利用置信度在低置信度检测到LTAs的情况下触发预警阶段。这意味着等待几秒钟以获得更有信心的预测来确认是否触发真实警报。如果是假阳性,这种方法将避免资源浪费,而在假阴性的情况下,它会通过预预警触发减少反应时间。在紧急医疗服务(EMS)不堪重负的地区,如高需求或农村地区,影响可能是显著的:减少虚假激活为真正的紧急情况节省了时间,而对真实警报进行预预警则能够实现更快的干预。

讨论

在这项工作中,我们证明了迁移学习方法的有效应用解决了LTA检测领域的主要限制之一:包含LTA事件的ECG记录不足。我们的结果显示,预训练阶段成功地从未标记数据集中提取了有意义的信息。尽管预训练和目标任务及数据集之间存在差异,但在预训练期间提取的信息被证明是有价值且可转移到下游任务中的。这使我们能够构建并利用一个大规模的数据集,通过从另一个领域(即不同类型的节律和分类任务)获取数据,从而成为该领域迄今为止使用过的最大数据集(72,952条ECG记录)。这一点尤为重要,因为大型且多样化的预训练数据集部分弥补了微调数据集有限的代表性,最终增强了模型的泛化能力。我们的模型在测试数据上达到了92.68%的敏感性和99.48%的特异性,预测粒度为1.28秒。

构建具有代表性的训练集的挑战在浅层和深度学习方法中都至关重要。基于DL的算法具备从大数据集中学习复杂、高维模式的能力,通常优于基于特征的方法。然而,这种优势也使得模型更容易过拟合。一个潜在的原因是训练集规模有限且代表性不足,这可能导致模型难以推广到未见过的数据,尤其是域外数据。当试图在现实世界应用中部署模型时,这一问题变得尤为关键。

LTA检测领域特别容易受到这些问题的影响,主要是因为这些心脏事件的罕见性和严重性,使得数据收集困难甚至不可能。此外,数据标注和共享相关的困难进一步加剧了这一问题。

我们工作的另一创新之处在于引入了一种算法置信度评估机制。在医疗领域,假阳性和假阴性的影响可能很严重。在我们特定的用例场景中,自动报警急救服务处理OHCA的情况下,后果是假阴性导致救援延误或缺失,而假阳性则造成资源浪费。通过集成一种评估模型对其预测置信度的方法,我们增加了一层安全性,允许系统在不确定情况下预报警急服务,减少误分类的影响。事实上,如果警报后来得到确认,这种预报警可以减少响应时间。相反,如果警报被取消,则可以避免因误报而导致的资源浪费。

与许多先前的研究不同,我们事先不排除任何数据(例如,中间节律、过渡节律、噪声ECG或标签),以更接近模拟现实世界的条件,即使这意味着性能可能会有所降低。我们没有去除过渡节律的片段,而是进行了额外的评估,将稳态节律与过渡节律分开。这项分析得益于我们模型的高预测粒度(即每1.28秒一次预测)。我们的结果显示,模型在过渡阶段的表现显著较差,这总是在尝试离散化连续过程时出现的情况。算法的难度反映了心脏病学家在存在过渡时标注数据的分歧。这些结果还建议专注于过渡时期以进一步提高模型的敏感性。要求一组经验丰富的心脏病专家更准确和精细地标记过渡阶段,达成一致意见是一种可能的缓解策略:新标签可用于微调具有改进性能和增强临床可靠性的模型。此外,我们的置信度估计和预报警机制可以进一步减轻过渡阶段误分类的后果。

文献中的第二大局限是没有公开可用、良好标注的数据集,专门作为域外数据集用于基准测试。包括我们在内的所有现有研究都仅依赖于在域内数据集上测试算法,这可能导致不那么现实的性能估计。这对我们研究来说也是一个局限,除非有基准数据集可用,否则无法克服。然而,我们认为,由于采用了迁移学习方法,我们的算法在设计上可以被认为更具鲁棒性和适应性。当然,域外基准数据集的可用性将提供更准确的模型泛化评估,并允许对文献中的不同方法进行公平比较。理想情况下,这样的数据集应由多名心脏病专家标注,并具有高预测粒度。多位专家的参与有助于评估和适当处理难以解释的ECG片段的影响,而更高的粒度则允许对节律转换期间的模型性能进行更详细的分析。

展望未来,下一步将是验证和调整我们的算法以适应可穿戴设备收集的数据,这通常会带来更大的挑战,因为噪声和伪影的存在更高。为了减轻这种情况,可以应用更先进和定制的ECG预处理技术;此外,可以进行第二步微调,以更好地适应可穿戴领域的模型。这将是确保算法在实际案例情景中有效性的重要一步。为了解决潜在的可穿戴设备需求,我们也提出了更轻量级的模型,以便能够在性能和计算需求之间找到最佳平衡,适用于特定的用例。

此外,进一步的研究应该调查基于置信度的预报警方法对整体性能的影响,理想情况下使用更大的测试集进行更稳健的分析。未来将提出的算法集成到整个应急系统中,也将允许更好地评估基于置信度的预报警系统的实际影响。

另一个有前途的方向是探索自监督学习方法。这将使我们能够在预训练阶段使用更广泛的数据集,而不受标签相关约束。这种方法可以使模型学习更通用的ECG表示,提高对未见过的域外数据的适应能力。最后,这个领域的一大进步将是与心脏病专家合作创建一个良好标注的基准数据集,向科学界公开提供一个共同的参考。

结论

总之,我们介绍了一种基于DL的稳健模型,用于通过迁移学习解决危及生命的心律失常检测中的数据稀缺问题。我们的模型从未在此类研究中使用的最大数据集(72,952条ECG记录)中提取知识,并在经过优化的微调后有效解决了LTA检测任务。结果显示改进了泛化能力和性能。我们的模型能够从单导联ECG中检测LTAs,粒度为1.28秒,具有高性能(92.68%的敏感性和99.48%的特异性)。它还包括一个置信度评估,结合紧急服务预报警机制,可以帮助更好地优化资源。总之,我们的研究有效解决了数据稀缺问题,推动了可穿戴监测系统中的LTA检测,并支持院外心脏骤停紧急情况下的快速、挽救生命的干预。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。