使用含噪声储层和可变激活函数的回声状态网络进行心电图心跳分类ECG Heartbeat Classification Using Echo State Networks with Noisy Reservoirs and Variable Activation Function

环球医讯 / AI与医疗健康来源:www.mdpi.com希腊 - 英语2026-03-06 06:42:13 - 阅读时长24分钟 - 11603字
本研究利用回声状态网络(ESN)模型对MIT-BIH心律失常数据库中的个体心电图心跳进行五分类评估,探究了储层隐藏层内部变量动态中存在噪声以及隐藏层细胞激活函数随机变化时的性能表现。研究发现最优ESN的整体准确率超过96%,各类别准确率在90.2%至99.1%之间,显著优于先前使用卷积神经网络等复杂方法的研究结果。值得注意的是,最佳ESN仅需在普通笔记本电脑CPU上训练40分钟,而达到与CNN研究(93.4%准确率)相当性能仅需6分钟,远低于CNN通常所需的2-3天训练时间。研究还揭示ESN在储层隐藏变量动态中添加高斯噪声时仍保持极强鲁棒性,即使噪声幅度高达200%时准确率仅从92%降至82%,且激活函数存在随机变化时性能基本不变,这一特性为ESN在模拟硬件实现和医疗实时监测领域的应用提供了重要依据,表明其在时间序列分类任务中具有巨大潜力,特别是在资源受限的物联网和边缘计算环境中。
回声状态网络储备池计算循环神经网络心电图心跳分类MIT-BIH心律失常数据库人工智能医疗应用噪声储层可变激活函数健康监测
使用含噪声储层和可变激活函数的回声状态网络进行心电图心跳分类

摘要

本研究使用回声状态网络(ESN)模型,该模型本质上是一种基于储备池计算(RC)范式的循环神经网络(RNN),利用MIT-BIH心律失常数据库对个体心电图(ECG)心跳进行分类。研究旨在评估ESN在处理复杂任务中的性能,该任务涉及将未经过处理的复杂一维信号分为五类。此外,我们还探究了(i)隐藏层(储层)内部变量动态中存在噪声,以及(ii)隐藏层细胞(神经元)激活函数存在随机变化时,ESN的性能表现。在无噪声和变化条件下,性能最佳的ESN整体准确率超过96%,各类别准确率在90.2%至99.1%之间,高于先前使用卷积神经网络(CNN)和其他更复杂机器学习方法的研究。性能最佳的ESN仅需在惠普笔记本电脑CPU(Intel i5-1235U@1.3 GHz)上训练40分钟。值得注意的是,另一种ESN配置达到了先前基于CNN研究(93.4%准确率)的准确率水平,但仅需6分钟训练时间,而CNN通常需要估计2-3天的训练时间。令人惊讶的是,当高斯噪声被添加到储层隐藏变量的动态中时,即使噪声幅度很高,ESN性能仍表现出极强的稳健性。此外,当隐藏层细胞的激活函数被施加随机变化时,成功率基本保持不变。ESN在噪声条件下和隐藏层(储层)细胞中存在随机变化时性能的稳定性,表明ESN的模拟硬件实现在时间序列分类任务中具有巨大潜力。

关键词:储备池计算;回声状态网络;循环神经网络;心电图心跳分类;人工智能在医疗应用

1. 引言

储备池计算(RC)作为一种处理序列和时间依赖数据的有效方法已获得认可,特别是在传统循环神经网络(RNN)变得过于复杂或计算量过大而难以训练的情况下。传统RNN需要训练隐藏层中各个单元(节点)之间所有内部连接权重,以及输入到隐藏层的连接权重和隐藏层到输出的连接权重。这种训练通常依赖于计算资源密集型算法,如随时间反向传播(BPTT)。RC使用一种独特的结构(如图1所示),可大幅降低训练复杂度。它由包含N个隐藏单元(储层)的隐藏层组成,这些单元随机且稀疏连接,连接权重Wres在区间[-1, 1]内随机选择。这些权重保持固定,无需训练。输入层由K个单元组成,根据输入数据结构而定,每个单元通过权重Win(K×N矩阵)连接到所有储层单元,这些权重也在范围[-1, 1]内随机初始化并保持固定。训练过程中唯一需要优化的是连接储层到输出层的权重Wout,大小为L×N。

这种方法降低了计算成本和训练时间,使RC在软件和硬件实现上具有实用性。另一方面,这种设计表现出出人意料的良好性能,对于大多数任务而言,其性能可与或优于其他方法(如LSTM或CNN),而这些方法通常包含更复杂的机器学习方法。RC下的主要架构有回声状态网络(ESN)、液态状态机(LSM)和时间延迟储层(TDR)。其中,ESN最早由Jaeger于2001年提出,本质上是一种RNN,以其简单的设计和高效性而著称。其成功依赖于回声状态属性(ESP),确保网络内部状态能可靠地区分不同输入信号之间的特征和相关性,独立于内部变量的初始条件。这意味着ESN内部状态能正确"回声"输入状态,从而保持一致可靠的输出。有趣的是,研究表明,即使是一个随机连接的高维动力系统,如果提供足够的数据,也能近似任何低维系统的动力学。换句话说,ESN通过将输入信号投影到储层内的高维非线性空间来编码随时间变化的输入特征。然后,只需训练储层到输出层连接的权重,训练"观察者"而非系统本身。这使得ESN在时间序列预测、模式识别、分类和系统建模任务中表现出色。

考虑一个离散输入序列,由每个时间步n的维度为K的向量un组成,以及相应的维度为L的目标输出序列yntarget。在每一步,ESN根据主方程更新其维度为N的内部状态向量xn:

xn+1 = (1−α)xn + αtanh(G(θWin·un+1 + Wres·xn) + b),

其中α表示泄漏率,控制下一个储层状态对先前状态的依赖程度,tanh(…)是单元的(双曲正切)激活函数,G、b是定义激活函数增益和偏置的固定常数,θ是输入向量在进入激活函数前被缩放的常数参数。在系统超参数中,α和θ以及储层固定权重矩阵Wres的谱半径ρ是最重要的,通常需要针对每个特定任务进行调整。最后,储层的输出信号由状态向量xn的线性组合确定:ynres = Wout·xn。

值得注意的是,方程(1)和(2)的变体已出现在应用中,例如在激活函数中包含反馈项,或使用非线性函数确定储层输出。然而,(1)和(2)对于本工作中的应用已足够。输出权重矩阵Wout的元素可以通过非常高效地解决超定线性代数方程组来确定:Wout = Ytarget·X†,

其中Ytarget包含作为其列的目标输出向量yntarget,X†是其列为所有相应储层状态xn的矩阵的伪逆。方程(3)表示一个线性最小二乘问题,其中Wout(L×N)的元素被选择以最小化储层输出ynres和目标输出yntarget之间的总差异。此方法极快,只需单步,且始终收敛,不像通常用于训练普通ANN的复杂多步BPTT训练算法。

实现ESN的关键部分是调整关键超参数ρ、α和θ,它们决定了储层的响应性、记忆容量和非线性。连接性(储层单元间非零权重连接的密度)也可能影响网络动力学和性能。然而,在过去大多数应用中,即使是非常稀疏连接的储层也表现良好;事实上,最佳性能通常在稀疏而非完全连接的储层中实现。激活函数的增益G和偏置b也可能被优化,当然,可以使用其他双曲正切激活函数替代tanh()。但在所有因素中,储层大小,由内部单元数N定义,是性能最关键的决定因素。N也必须根据具体问题和可用训练数据进行优化。通常,单元越多越好,因为更大的储层提高了ESN表示复杂动力学和捕获内部相关性的能力。当过度拟合发生时,N的自然上限就出现了,这是所有ANN中的常见风险,即ESN专门拟合训练数据几乎完美,但在未见数据上失去良好性能的能力。

在训练时间和计算资源方面,增加ESN储层的隐藏单元数N(与其它RNN不同)影响极小,因为ESN的训练非常快且与N²成比例,这是相比传统RNN的主要优势。然而,必须注意避免过度拟合,特别是当训练数据集较小时。储层的几何形状和拓扑结构也可以调整。在ESN的最初提出版本中,储层由单层随机连接的单元组成。然而,已提出深层或多层储层和替代连接方案。我们自己的ESN版本(Multi-ESN)允许多层储层的各种配置。由于没有选择超参数最优值的解析解,调优通常需要跨多个配置进行经验测试。然而在实践中,对于大多数应用,优化基本参数ρ、α和θ以及随机储层的大小N通常足以实现卓越性能,而几何形状、连接性等其他因素通常次要。储层的随机初始化进一步促使从不同起点执行多次试验,以评估稳定性、鲁棒性和最大化性能。尽管有这些复杂性,ESN所需的总训练时间(包括超参数优化)远少于传统RNN。总体而言,ESN在建模复杂时间依赖性方面的计算优雅性、简单性和能力,已使其成为从语音和信号处理到生物医学诊断等领域的日益流行的工具,包括在基于ECG的健康预测和分类任务中的应用。

特别在生物医学时间序列分类方面,ESN因其高效的时间建模、低训练复杂性和对输入信号噪声的鲁棒性而被广泛研究。更具体地说,在ECG分析中,基于ESN的方法在心室心跳分类中表现出色,在MIT-BIH心律失常数据集上实现了95%以上的准确率,能够实现实时监测。患者自适应储备计算模型通过自适应读出策略进一步提高了分类性能。最近,提出了一种归一化ESN架构(NESN),以增强对非平稳和噪声ECG信号的稳定性和鲁棒性,从而改善异常模式检测。除了ECG,ESN还成功应用于EEG分类任务,包括心理任务脑机接口系统和手腕及抓握运动解码,在低计算复杂度下展示出准确的运动相关EEG分类。关于储层动力学的研究还表明,通过更新内部参数(如增益和偏置),性能和内部表示受到影响,在临界动力学区域附近发生状态和预测准确性的更好分离。ESN在噪声条件下的鲁棒性已明确研究,在噪声分类和语音识别任务中报告了稳定性能,以及在高斯噪声干扰下的时间序列分类。在上述所有工作中,目标是最大化ESN识别准确率和跨类别的均匀性,而噪声仅针对输入数据考虑。

在本研究中,我们首先评估单层和深层架构的多层ESN在具有五个分类类别的个体ECG心跳分类中的性能。我们使用监督训练ESN,不将其与其他AI系统或ML方法结合,也不对输入信号进行任何预处理(如去噪或特征提取),仅进行信号归一化。我们比较了(i)具有最稀疏可能单元连接的"环"储层的性能,其中所有单元形成环结构,每个单元仅连接到其两个相邻单元,以及(ii)更密集连接的普通随机连接储层。此外,我们研究了在储层(而非输入数据)的内部变量动力学中引入噪声如何影响ESN性能。我们还研究了如果对储层中每个单元的激活函数的增益和偏置参数施加随机变化,ESN性能如何受到影响。这些问题尤其重要,特别是考虑到可能使用除CMOS以外的技术实现ESN的模拟硬件,这是储备池计算背后的主要概念。在这些实现中,储层硬件内噪声条件下和/或非相同储层单元的ESN性能的鲁棒性至关重要。此外,证明具有最稀疏可能连接(环储层)的储层在ECG脉冲识别任务中的表现很重要,因为这些储层将具有更低的制造成本。最后,我们将ESN结果与先前使用其他基于ANN模型的研究结果进行比较,既在识别准确率方面,也在训练时间和计算资源方面。

2. 方法

2.1. ECG数据集描述

ECG心跳分类实验使用PhysioNet MIT-BIH心律失常数据库进行,具体采用了Kachuee等人预处理的版本。MIT-BIH心律失常数据库是评估一维信号分类算法的广泛认可的基准。它包含48段半小时的心电图(ECG)记录,这些记录来自47名不同个体,是从4000段全天ECG记录中随机选取的。选择策略确保包含频繁出现的心律失常和临床上重要但相对罕见的心律失常类型,这些类型可能在较小数据集中缺失。所有ECG信号以每秒360个样本的采样率数字化。此外,每段记录由至少两名心脏病专家独立审查和注释,以确保脉冲分类的可靠性。Kachuee等人描述的预处理流程详细说明了ECG信号的处理方式,包括心跳分割和提取程序。专家注释根据医疗仪器促进协会(AAMI) EC57标准分为五类:类别0(N):正常心跳;类别1(S):室上性异位心跳;类别2(V):心室异位心跳;类别3(F):融合心跳;类别4(Q):未知心跳。接下来,参考文献[18]的作者采用具有残差连接的深度卷积神经网络(CNN)对ECG心跳进行分类,达到了93.4%的峰值准确率。最后,在处理ECG后,产生了具有0-4类标签的个体心跳标记数据集,包含87,554个用于训练的心跳和21,892个用于测试的心跳。这些文件公开可用。

2.2. ESN设置

本工作的实验使用由本文第一作者开发的基于MATLAB的定制软件工具Multi-ESN进行,该工具在配备Intel i5-1235U @ 1.3 GHz/CPU/36GB DDR4的惠普笔记本电脑上运行于MATLAB v2024b for Microsoft Windows 11 64位环境中。该工具基于Gallicchio等人公开提供的Deep-ESN代码。Multi-ESN支持多层储备计算架构的构建以及每层的各种几何形状,如图1所示的环几何形状。Multi-ESN可用于时间序列预测和分类问题。

2.3. ESN输入数据集:描述和预处理

本研究中使用的ECG心跳数据集包含87,554个样本。每个样本是代表单个心跳的ECG信号片段。所有样本都有187个数据点,具有相同的持续时间。为形成ESN的输入向量时间序列,每个样本信号存储为187个元素的列向量。

2.3.1. 数据集平衡

五个心跳类别的样本分布高度不平衡:类别0:72,471个样本,类别1:2,223个样本,类别2:5,788个样本,类别3:641个样本,类别4:6,431个样本。为便于操作,数据集分为三个子集:80%用于训练,10%用于验证,剩余10%用于测试。样本随机洗牌,以确保每个类别在所有三个子集中均匀表示。初步实验表明,改善类别分布同质性可能会有利于训练过程和储层的整体性能。鉴于训练集中的极端不平衡性(类别0有近58,000个样本,而类别3只有520个),这一点尤为重要。将严重不平衡的训练数据集输入ESN的效果,就像任何基于ANN的ML分类系统一样,是其分类能力在类别间的类似不平衡:ESN在过度表示的类别上表现极佳,而在表示不足的类别上表现不佳;数据集的不平衡程度越大,各类别间性能的不均匀性就越大。这是因为ANN损失函数对所有样本加权均匀,因此ANN是基于ESN跨所有类别的平均性能而非每个单独类别的性能进行训练的。为解决此问题,我们通过简单复制少数类别样本来平衡数据集。具体来说,数据集被修改为使每个五个类别包含20,000次心跳。对于最初包含超过20,000个样本的类别,随机选择20,000次心跳的子集。对于少于20,000个样本的类别,随机选择尽可能多的不同样本子集,并根据需要复制以达到所需数量。因此,用于训练和测试储层的最终输入数据集总共包含100,000次心跳信号,均匀分布在所有五个类别中,随机排列。随机洗牌和特别是训练集的"平衡"对于在所有类别中实现可比的识别准确率至关重要。

此时,我们应该提到文献中已出现几种方法来平衡不平衡数据集,无论AI方法或分类任务如何。最重要的是:数据增强通过生成额外的、保留标签的变换样本来缓解不平衡,增加了少数类别的多样性,无需收集新数据。SMOTE(合成少数类过采样技术)通过在样本与其最近邻居之间插值来创建新的少数类实例,而不是简单复制。自适应采样策略动态集中合成生成或采样努力于更难学习的少数类示例,而不是均匀过采样。最后,成本敏感学习是一种通过为少数类分配更高的误分类成本(或损失权重)来解决类别不平衡的技术,使优化器优先减少其错误。所有上述方法都是比最简单选择(少数类的样本复制)更"复杂"的替代方案。简单复制策略可能相对于更复杂方法增加过拟合和泛化的风险。那么,我们为什么选择简单样本复制方法?简单答案是,事后看来,它效果非常好,从所有类别中出色的识别率可以判断。然而,我们最初选择坚持这种选择主要有两个原因:首先,因为我们打算为ESN系统使用尽可能简单的训练和操作协议,而不会显著损害性能,记住长期目标是具有成本效益的模拟硬件实现(参见下一段的讨论)。因此,最简单的平衡程序是显而易见的选择。其次,我们认为,对于我们的任务和数据集,泛化的风险预计不会因任何更复杂的平衡方法而明显降低。首先,因为训练数据集已经非常大,包含绝对数量上许多样本,即使是少数类别(最严重表示不足的类别已有641个不同样本)。事实上,无法保证最复杂的方法会表现更好,它们可能表现更差。例如,SMOTE虽然通过在"最近邻居"之间插值生成合成样本,但可能生成缺乏原始样本关键特征的不现实样本,最终"混淆"ESN。通过简单复制,我们确保ESN始终查看每个类别的真实样本,并具有相同的频率。当然,利用所有平衡方法进行彻底的案例研究并比较结果将揭示哪种方法表现最佳;然而,此比较超出了本工作的范围,留待将来研究。

2.3.2. 信号预处理

未对从PhysioNet MIT-BIH心律失常数据库获取的原始ECG脉冲信号应用额外预处理。在此数据库中,所有原始信号的幅度已归一化到区间[0, 1],如图2所示,显然是通过最小-最大缩放。这是将输入规模带入用作储层所有神经元节点激活函数的双曲正切函数激活范围的标准且必要程序。我们未对信号进行任何去噪。我们未应用任何特征提取技术,例如信号极值的数量和位置、它们的相关时间间隔等。我们使用原始(归一化)信号,完全按照从数据库获取的方式。我们的目的是测试ESN通过"蛮力"学习原始信号中存在相对相关性的能力,以便正确区分不同脉冲类别。通常,使用去噪数据训练任何RNN,特别是提供输入信号的低维辅助信息,可能会显著提高其性能,同时减少所需隐藏层大小(神经元单元数)。然而,这种做法只是将部分权重从RNN转移到必须实现预处理步骤的系统上。上一段关于平衡方法选择的论点也适用于此;储备池计算的长期目标通常是实现与数字实现AI系统性能相当的具有成本/资源效益的模拟硬件实现。这意味着人们应尽可能简化其训练和操作协议;理想情况下,两者都应在单步中通过单个组件完成。

2.4. ESN目标和输出信号后处理

在原始数据集[18]中,每次心跳使用0到4之间的整数值标记其类别。目标集以与输入数据相同的顺序洗牌,以保持输入-目标对齐。由于储层输出信号始终是连续数字,需要额外处理步骤将输出信号映射到离散类别标签。使用连续整数0,1,2,3,4作为类别标签和"向下取整"函数将连续ESN输出y映射到其中一个整数是一种方法。然而,此策略引入了不希望的偏差,因为它迫使网络为标记为更高整数值的类别产生逐渐更大的输出幅度。为消除此偏差,我们使用一位编码格式,将每个类别标记为五维二进制向量,如下所示:类别0 → [1 0 0 0 0],类别1 → [0 1 0 0 0],类别2 → [0 0 1 0 0],类别3 → [0 0 0 1 0],类别4 → [0 0 0 0 1]。相应地,储层输出现在必须是五维连续信号(y0, y1, y2, y3, y4)。通过"胜者通吃"策略,将此连续值向量映射到上述二进制字符串,即具有最高绝对值的分量yi是决定的类别。

2.5. ESN优化

基线配置(此后称为默认储层(DF))由单层架构组成,总共300个储层节点,均匀分布在各层(每层100个节点)。每层具有环拓扑结构,意味着每个节点仅与其环上的两个直接邻居实现两个非零权重连接,导致层内连接最小化。通常,层数不被视为超参数,因为标准ESN中的储层通常由单层递归节点组成。我们最初专注于同时优化基本参数α和谱半径ρ。泄漏率α在区间[0.5, 1]内变化,谱半径ρ在范围[0.2, 1.2]内变化,步长也为0.1。优化的注意力随后转向直接影响传递到激活函数的预激活的参数,如输入缩放θ、增益G和偏置b。这三个参数同时调优,输入缩放范围为[1, 4],步长为1;增益范围为[0.5, 2.5],步长为0.5;偏置范围为[-1.5, 1.5],步长为0.75。获得的最优值在继续后续优化阶段前固定。

下一步探索了储层大小和几何形状的影响。首先,我们使用环几何形状将节点总数在150到4800范围内变化。或者,我们尝试了随机几何形状(储层中随机连接和非零权重连接)。最后,测试了深层架构,其中随机连接的层串联排列,只有第一层连接到输入层,只有最后一层连接到输出层。

3. 结果

3.1. 输入平衡和ESN性能超参数优化每一步的影响

在使用300节点储层进行超参数调优的第一阶段,对于泄漏率和谱半径,我们分别找到最优值α = 1和ρ = 0.2。此优化使用平衡和非平衡数据集进行,在两种情况下产生相同的最优值。正如预期的那样,对于此分类任务,调整泄漏率并非必要,因为ECG样本彼此独立。因此,ESN不需要时间记忆。对于这些参数的最优值,平衡和非平衡数据之间的%准确率存在显著差异,如图3所示。使用非平衡数据训练的ESN在分类类别0脉冲(99.4%)方面表现几乎完美,这是数据集中表示最多的类别,但在分类类别3脉冲(最严重表示不足的)方面仅为0.0%。跨类别的平均%准确率看起来很高(87.7%),但由于各类别识别准确率的标准差极高(45.1%),此结果具有误导性。这表明少数类别信号在学习过程中实际上被忽略了。平衡输入数据集后,即使没有优化超参数,整体准确率下降到69.4%,但类别间性能显著更均匀。每类准确率标准差降至17.9%,而识别率最低类别的准确率从0.0%提高到43.6%。随后优化ρ和输入缩放θ将整体准确率提高到77.6%,将标准差降至11.2%,并将识别率最低类别的准确率提高到63.1%。最后,对300节点ESN的θ、G和b进行联合优化,获得最优值(θ = 4, G = 1和b = 1.5),进一步将平均准确率、标准差和每类最低准确率分别提高到84.5%、7.0%和76.5%。

值得注意的是,在Intel i5-1235U @ 1.3 GHz CPU上使用Multi-ESN框架的MATLAB实现训练300节点ESN仅需约9秒。在表1中,我们总结了300节点储层的基本ESN超参数的最优最终值。

3.2. 多ESN性能与储层大小和储层几何形状的关系

在使用相对较小的网络(训练会话极快)优化基本储层超参数后,这些参数在所有后续实验中保持固定。然后我们检查储层大小(隐藏单元数)和单元连接性对ESN整体性能的影响。

图4显示了储层性能作为储层大小的函数,证实节点数量的增加通常导致性能的一致改进。特别是,使用测试的最大储层(包含4800个节点)实现了96.3%的最高整体准确率。然而,仅使用1800节点ESN,%准确率(整体和每类)就几乎与参考文献[18]的结果相同。我们的3000节点ESN已经超过了表II中参考文献[18]中引用的最高性能研究的平均准确率。

在表2中,我们将本研究中各种ESN相对于其他使用相同ECG脉冲数据库的类似研究的准确率进行比较。

在表3中,我们比较了N = 1200节点、环几何形状的ESN与N = 1200节点、20%储层内连接具有非零权重(密度=0.2)的随机连接ESN的性能。我们还展示了深层ESN架构的结果,其中储层的1200个节点分布在三层,每层400个节点,同时只有第一层连接到输入单元,只有最后一层连接到输出单元。

当使用相同优化的超参数值时,储层性能基本不受储层内连接性的影响。具有非常不同层内稀疏性的配置,如基于环的几何形状和具有增加非零连接密度的随机几何形状,实现了几乎相同的分类准确率。这对于可能的ESN模拟实现是一个重要结果,在模拟实现中,更少的连接减少了结构复杂性和制造成本。

深层架构根本无益。虽然深层架构通常会改善其他ANN模型的性能,但我们没有观察到ESN的情况。浅层储层与优化几何形状达到接近92%的准确率水平,而深层架构降至72%。深度似乎增加了不必要的复杂性,而没有改善RC模型中的性能。在RC中,储层和输入权重是固定的,只有读出被训练。储层是一个高维非线性动力系统,在训练期间保持固定,同时被较低维输入信号驱动。因此,它将输入投影到更高维相空间中的轨道。由于内部权重未被优化,连接每个储层单元到输出层以利用储层的全部预测能力很重要。同样,每个输入组件理想情况下应连接到每个储层单元,以最大化输入驱动储层内部状态的方式。深层架构不满足这些条件:输入信号仅驱动第一层的单元,ESN输出信号仅取决于最后一层的单元。这减少了输入信号在馈入储层前加权的组合数量,以及可训练的读出权重数量,使中间层大多无用。总之,ESN性能从大型、浅层储层中获益最多,这些储层具有完整的输入到储层和储层到输出连接;储层几何形状和内部稀疏性次要。

3.3. 含噪声储层和储层单元激活函数随机变化对ESN性能的影响

在本节中,我们展示了在储层动力学中引入噪声的实验结果。我们通过在更新储层状态变量xn+1的递归方程中添加高斯噪声项来实现:

xn+1 = (1−α)xn(1+Aξn) + αtanh(G(θWin·un+1 + Wres·xn(1+Aξn)) + b),

其中ξn是维度为N的向量,其分量是根据正态分布分布的随机变量。A是确定噪声项相对于xn的幅度的常数参数。作为基础,我们使用了具有1200个节点的优化ESN,评估其在噪声幅度A = 1%、5%、10%、25%、50%、75%、100%、150%和200%下的性能。结果如图5所示。

我们看到,随着噪声水平增加,储层性能如预期下降,但速度出人意料地慢。在最高200%噪声水平下,整体准确率从约92%仅降至约82%,而类别间准确率的标准差从约4.7增加到8.7%。在本研究背景下,如果ESN模型在噪声高达储层状态变量xn幅度的25%信噪比条件下性能下降不超过10%,则被认为可靠。此阈值基于经验观察和实际稳健性考虑,并在文献中得到支持。在我们的情况下,25%信噪比下的整体准确率降低仅为约2.3%;因此,ESN模型满足此可靠性标准,并证明在噪声存在下非常稳健。

接下来,我们通过在方程(3)的非线性项中引入增益和偏置的小随机波动,检查了在储层每个单元的激活函数中添加随机变化对ESN性能的影响。我们通过为每个单元i分配不同的值来实现:

Gi = G + N(0, σG), bi = b + N(0, σb)

其中N(0, σG)和N(0, σb)分别是均值为0、标准差为σG和σb的正态分布。这些参数衡量跨单元激活函数的随机变化程度。这些波动可能导致激活函数产生不同的输出,即使储层层的权重保持不变。然后,我们通过在变化σG和σb的同时训练相应的1200节点ESN,同时像以前一样优化G和b以及所有常规超参数。ESN性能随单元变化水平的变化如图6所示。显然,在激活函数的增益和偏置参数中引入随机变化实际上根本不影响储层性能。ESN的准确率保持在约91.74%至91.84%之间,标准差很小,即使同时变化σG和σb。

4. 讨论和结论

在本研究中,将回声状态网络应用于具有强烈不平衡训练集的五类ECG心跳分类问题。我们证明,通过复制表示不足类别的样本以使所有类别在训练集中均等表示来平衡训练数据,显著提高了所有心跳类别分类的一致性。我们还表明,整体%准确率及其跨类别的均匀性受储层大小的显著影响。实现的最高整体准确率为96.3%。4800节点ESN的每类最低准确率(针对严重表示不足的类别)为90.2%。这高于至少四项先前使用更复杂机器学习方法的研究。仅使用1800节点的较小ESN,我们就实现了93.4%的整体准确率,每类最低准确率为87.6%,达到了先前研究的相同水平。同样重要的是所提出方法的计算效率。ESN的训练时间仅是基于RNN或CNN的替代方法所需时间的一小部分,这使得即使训练最大的ESN也可以使用比训练更传统方法(使用CPU而非GPU)低得多的计算资源来完成。

其次,我们的结果表明,具有"环"架构的ESN(在连接数量方面最经济的架构),在ECG分类任务中与更密集的随机架构表现同样出色。这对硬件实现来说是一个重要结果,其中制造中节省资源是一个问题。第三,我们发现深层架构(储层分为依次连接的独立层,同时只有第一层连接到输入,只有最后一层连接到输出)对ESN性能根本没有益处。最佳架构显然是所有输入和输出单元都连接到每个储层单元,因此储层是单层。

最后,发现向激活函数增益和偏置参数添加随机变化,本质上创建具有多样化神经元单元的储层,几乎不影响ESN的整体性能。此外,我们表明,在向储层单元状态变量的动力学添加高斯噪声后,它即使在非常高的噪声水平下仍保持异常良好的性能。对于高达25%的信噪比,添加的噪声仅轻微(2.3%)影响平均准确率。这对RC可能的物理模拟硬件实现尤为重要。灵活可靠的模拟实现可以被视为储备池计算的圣杯。除了训练更快更简单外,RC和ESN的模拟实现还避免了数字计算的一些缺点,如高成本和高功耗。这些缺点在某些应用中是不可取的,特别是在物联网和边缘计算中。另一方面,ESN的模拟实现面临一些挑战。首先,它们通常需要(如本研究中所见)具有数百甚至数千个节点的非常大储层,以与传统RNN性能相当,特别是在每个样本具有许多数据点的时间序列分类任务中。这给制造和操作带来困难。这些模拟实现中的第二个挑战通常围绕内部噪声(如热噪声或工艺变化)和非理想器件行为,这可能会降低有用信号。我们在本研究中试图通过表明即使噪声和高度可变的储层也能表现良好来解决第二个挑战,至少在时间序列分类任务中。显然,区分属于不同类别的时间序列(信号)的特征可以被具有足够大储层的ESNs轻松学习,而这些特征之间的差异即使在高噪声和可变性水平下也不会严重模糊。

【全文结束】