摘要
仅基于索赔数据准确测量中风护理质量具有挑战性。传统结果指标,如死亡率,并不能捕捉关键中风护理过程的有效性。我们的目标是通过将临床中风严重程度数据与索赔数据相结合,开发混合质量指标(QIs)。索赔数据与来自15家医院(2017-2020年)的患者级别临床数据相链接,并在观察性医疗结果伙伴关系(OMOP)数据模型中进行了协调。纳入标准、结果和风险因素由医学专家小组制定。我们应用机器学习对30天死亡率、90天内再梗死和180天内护理等级提升的结果进行建模。我们使用受试者工作特征曲线下面积(ROC-AUC)和Brier分数(BS)比较了包含和不包含美国国立卫生研究院卒中量表(NIHSS)的极端梯度提升(XGBoost)模型。医院根据每个质量指标对标准化死亡率比(SMRs)的影响进行排名。该研究包括9,348例缺血性中风(I63)和1,554例出血性中风(I61),其中5,012名患者的NIHSS数据可用。对于所有三个结果,NIHSS测量的疾病严重程度是最重要的决定因素。混合模型的预测能力高于仅基于索赔数据的模型。对于标准化死亡率比(SMR),NIHSS的影响大于年龄(索赔数据模型中最重要的变量)。结果在两种中风类型、不同结果和敏感性分析之间保持一致。将NIHSS信息与索赔数据一起使用可改善质量指标的风险调整。
引言
中风是全球致残和死亡的主要原因之一,给医疗保健系统带来重大负担,需要高质量护理以优化患者预后。然而,测量中风护理质量具有挑战性,特别是仅依赖索赔数据时。索赔数据是为行政而非临床目的收集的,通常缺乏充分捕捉中风护理质量复杂性所需的细节。这些数据通常仅限于诊断、治疗和住院的基本信息,可能忽略患者管理和特定临床信息等关键方面,而这些对于准确质量评估至关重要。特别是,结果和风险因素有限,因此无法排除残余混杂因素和现有质量指标(QIs)相关潜在有效性不足的问题。
在德国,中风护理的外部质量保证仅对国家中风协会认证的机构是强制性的,这要求认证的中风单元系统收集结构化临床数据。然而,这些数据通常是单独收集的,并不总是易于用于数据链接,这给大数据集中的全面质量评估和分析带来了挑战。
传统指标,如死亡率和住院时间,仅提供有限的护理质量视图,可能无法反映关键过程的有效性,例如及时再灌注治疗或物理治疗和言语治疗等综合治疗。因此,需要混合QIs,能够结合索赔数据和附加临床信息,以提供中风护理质量的更全面视图。
在本项目中,我们迈出了将临床信息直接从参与诊所各自数据仓库与法定健康保险公司数据链接的第一步,这些数据并非为研究目的直接收集和记录。除了可行性外,目标是扩展德国使用的质量评估程序(QSR - Qualitätssicherung mit Routinedaten),该程序仅使用法定健康保险公司数据来比较医院质量,纳入临床参数,以便也能为严重程度敏感的中风执行"扩展"QSR程序。重点是最小化扩展模型。我们开发了包含基于美国国立卫生研究院卒中量表(NIHSS)的中风严重程度临床信息的混合QIs。
结果
研究人群
在2017年至2020年的研究期间,仅索赔数据中记录了1,554名主要出院诊断为I61和9,348名I63(ICD-10-GM)的患者(表2)。15家医院中有9家提供了入院时NIHSS评分信息。混合数据中共纳入511名I61患者和4,501名I63患者(表2)。患者特征分别报告了I61和I63两类患者有和无NIHSS评分的情况(表1)。除NIHSS状态外,还显示了人口统计学因素(年龄、性别)、合并症、索引中风前两年的药物使用和其他患者特征的百分比。这些在有和无NIHSS信息的人群之间没有重大差异。所检查的三个二元结果中,事件发生与未发生患者的比率适中。90天内再梗死的结果由几乎相等的比率(1:1)表示,而180天内护理等级提升和30天死亡率的比率增加至1:7(事件:无事件)。I63患者达到30天死亡率结果的频率低于I61患者(表2)。
表1 显示I61和I63患者特征和风险因素的基线信息,按NIHSS的可用性分层。mRS:出院时改良Rankin量表(医生报告的残疾量表)。
表2 显示I61和I63的索赔和混合数据的病例数,包括三个二元结果(30天死亡率、90天内再梗死和180天内护理等级提升)及其类别比率。90天内再梗死结果计算索引中风后90天内所有主要出院诊断为中风(I61/I63)的住院。无论索引中风类型(I61或I63)如何,两种I代码均计为再发事件。
医学专家小组
医学专家小组基于索赔数据确定了I61的35个潜在风险因素和I63的39个潜在风险因素。选定的风险因素包括年龄、性别、既往ST段抬高心肌梗死(STEMI)、现有冠状动脉旁路移植术、抗凝药物和其他选定药物的使用、索引住院期间的取栓术(仅对I63相关)以及选定的Elixhauser合并症,被选为风险因素。完整列表可在补充文件中获得(表S1)。在临床数据中,我们使用医生报告的NIHSS评分作为风险因素和中风严重程度的代理。
拟合优度指标
为了区分通过整合NIHSS对建模的影响,比较了在保持模型设计所有其他方面不变的情况下,训练有和无此临床参数的XGBoost模型的性能指标。混合数据上拟合的模型的拟合优度指标始终更高(表3)。NIHSS对模型性能的影响对30天死亡率尤为明显。包含NIHSS使ROC-AUC值绝对提高了最多15%。
对于30天死亡率结果,进行了敏感性分析,排除了NIHSS为32的患者,因为这些患者更可能需要机械通气。机械通气使评估中风严重程度变得困难,并暗示可能影响再入院或死亡的其他因素。敏感性分析表明,排除这些患者对模型性能没有影响(表3)。
表3 XGBoost测试数据性能比较,基于索赔或混合数据集的分析。结果显示了三个结果以及敏感性分析(仅基于30天死亡率;粗体)。基于混合数据(包括NIHSS)的分析始终显示出更好的拟合优度(更高的ROC-AUC,更低的Brier分数)。这种影响对第一个结果30天死亡率最为明显,适用于两个实体。
变量重要性指标
对于30天死亡率和90天内再梗死的结果,模型将NIHSS排名为最重要的参数。对于180天内护理等级提升的结果,NIHSS至少排在第二位(参见补充附录中图S1和S2右侧的图表)。这些结果在I61和I63两个实体中一致。在敏感性分析中,NIHSS也保持为最突出的参数(图S3)。我们还有出院时的改良Rankin量表(mRS)信息。然而,该评分与入院时的NIHSS高度相关,因此我们仅专注于NIHSS。此外,使用mRS会使我们失去更多患者,因为这里的覆盖率甚至低于NIHSS。疾病严重程度的可能变异性在NIHSS中也得到更好表示(43个类别对比7个类别)。我们无法获得来自临床信息系统的重要其他参数。特别是,缺乏有关患者社会人口统计学(收入、教育、婚姻状况)的进一步信息。重要的身体特征(体重、身高、腰臀比)也无法获取。过程指标(事件到门或门到针时间)也完全缺失。尽管如此,无法包含任何实验室值或生理发现(如血压)。在仅基于索赔数据的模型中,年龄和入院前所需的护理程度有一定影响。对于缺血性中风,取栓术的执行也有影响。其他使用的基于索赔的变量对建模的影响可忽略不计(图S1-S3和表S1)。
标准化事件比率
我们比较了所有三个结果中,根据XGBoost模型在索赔数据和混合数据之间按标准化事件比率(SER)对医院的排名(图1)。对于所有比较,索赔数据和混合数据的SER分析之间存在差异,Spearman等级相关在-0.71至0.92之间,具体取决于结果和实体(I61或I63)。特别是,标准化死亡率(SMR - 基于30天死亡率)大多显示出较差的等级相关(rho值:-0.71,0.45)。在敏感性分析中也发现了相同的弱相关(图S4)。
图1
基于SER/SMR(XGBoost模型)的医院排名比较,索赔数据与混合数据之间。数据显示了三个结果:30天死亡率、90天内再梗死和180天内护理等级提升;(A-C)I61数据;(D-F)I63数据;给出每个比较的SMR(标准化死亡率比)及其95%置信区间,以及索赔数据和混合数据之间的Spearman相关。
讨论
我们的结果在缺血性中风和出血性中风患者(I63或I61)之间是一致的,并提供了证据,表明将NIHSS的临床信息添加到基于索赔数据的质量指标中可以改善风险调整。将NIHSS作为中风严重程度的代理显著改善了关键结果的模型性能,特别是对于30天死亡率。观察到的改进,包括ROC-AUC绝对提高最多15%,强调了临床严重程度数据在提高预测准确性方面的价值,特别是对于高度依赖入院时患者状态的结果。这一发现支持了结合索赔数据和NIHSS临床信息的混合模型在质量评估中的潜在效用,尽管此类改进取决于临床数据的一致可用性。在我们的分析中,NIHSS数据在医院间的有限可用性(15家中的9家)和混合数据集的样本量减少(总共仅5,012名患者)突显了开发混合QIs的一个关键挑战。尽管大多数医院可能收集了临床数据,但由于医疗文档不同系统之间缺乏互操作性和正在进行的维护,这些数据不可用于数据链接。无法确定失败是由于偶然还是我们样本中的诱导选择偏差。这种数据访问限制可能会限制对更广泛医院人群和地区的普遍适用性。然而,尽管样本量减少,有和无NIHSS信息的患者之间的基线特征没有重大差异,表明子集可能仍然具有代表性。其他研究也报告了获取NIHSS信息完整性的困难。患者流失程度与我们的相当。许多研究已经表明,添加NIHSS会导致中风患者风险调整的改善。特别是对于依赖入院时患者状况的结果,如30天死亡率,这些研究表明,添加中风严重程度(NIHSS作为最常用的国际参数)对风险调整至关重要。生理参数和实验室值(如血液标志物)对风险建模影响的证据较弱。
基于索赔数据的应用QIs通常不考虑中风护理的复杂性,特别是在急性住院环境中,有效治疗不仅需要及时干预,还需要不同医疗专业人员和专门协议的协调护理。当它们不包括对结果有重大影响的临床参数时,尤其如此。
NIHSS在临床和研究环境中被广泛用于确定中风严重程度、指导治疗决策和预测患者结果。在中风护理中,NIHSS作为入院时患者状况的关键指标,有助于确保医院或治疗之间的结果比较考虑了初始中风严重程度的差异。这在干预性研究等研究环境中尤为重要。NIHSS作为预测30天死亡率和90天再梗死最重要变量的高排名与它作为中风严重程度指标的临床作用一致。即使在敏感性分析中排除了重度受影响患者(NIHSS = 32),NIHSS作为预测因子的稳健性也增强了其作为质量指标的有效性。这一发现表明,NIHSS在不同模型配置中仍然是一个关键因素,可能作为德国医院混合质量评估的稳定组成部分。
医疗保健质量近年来引起了公众越来越多的兴趣。现在广泛可获得面向公众的医生和医院质量报告和排名。此外,医疗保健质量的透明报告已成为近期卫生政策改革的焦点。在此背景下,基于可靠和健全方法提供可靠信息至关重要。正如我们的数据显示,以有意义的方式添加临床信息导致了质量评估指标的变化。基于标准化事件率(SERs)的医院排名在有和无NIHSS的模型之间存在显著差异,这意味着仅使用索赔数据可能会误判医院绩效。30天死亡率SERs观察到的低相关性,特别是对于出血性中风,表明包含NIHSS显著改变了质量评估指标。这些变化突显了在排除严重程度数据时医院排名误分类的潜在风险,对中风护理中的问责制和质量改进工作具有潜在影响。我们的分析表明,仅基于索赔数据不应将死亡率(不使用中风严重程度的附加信息)用作质量指标。鉴于不同级别的中风护理——从专科中心到远程医疗网络医院——这一点尤为重要,其中准确评估对于确保一致满足质量标准至关重要。
将临床严重程度数据(如NIHSS)整合到基于索赔数据的模型中提供了方法学优势,但也带来了实际挑战。混合QIs需要强大的临床数据收集系统和跨机构的密切合作。虽然本研究表明添加NIHSS提高了预测能力,但在现实环境中实施此类混合指标可能需要政策调整,以支持一致的、以质量为导向的数据收集。尽管结构化临床数据在中风单元之间收集,但它们并不总是直接可用于扩展使用和大数据分析。
观察到的出血性中风(I61)再梗死的高比率并不完全令人信服。这是因为编码为I61或I63的住院均被归类为再梗死。尚不清楚初始中风的并发症被误分类为I61或I63是否导致了增加的比率。此外,不能排除I61的样本偏差作为潜在因素。
鉴于NIHSS对模型准确性的影响已被证明,未来工作应探索在可行的情况下扩展混合指标以包括额外的临床数据,可能整合数字健康工具以简化数据收集。根据我们的发现,无法确定在中风中添加NIHSS是否提供了足够的风险调整,或者是否需要额外的临床参数。如果法律要求医院为每位中风患者提供中风严重程度数据,以提高医院间护理质量的可比性,可能会有所帮助。
尽管在认证的中风单元中存在标准化的数据收集协议,但政策制定者和医疗保健提供者仍需确保全面和可比的质量评估。机构间数据的一致性、数据完整性和数据可用性仍然是中风护理评估中可靠实施混合QIs的关键因素。
混合QIs也可能具有重要的经济和预防意义。更精确的风险调整可以减少医院绩效的误分类并实现医院之间的比较。因此,可以指导更有效的医疗资源分配,从而支持质量改进。最终,减少可预防的并发症和再入院有助于成本效率。此外,当能够系统比较医院间风险调整后的结果时,可以加强中风预防。通过这种方式,混合QIs不仅有可能提高急性护理评估的准确性,还有助于指导预防策略并促进更综合的中风护理模式。
方法
研究设计
回顾性地,"AOK – Die Gesundheitskasse"的纵向索赔数据与15家参与的德国医院的临床数据按患者链接(混合数据集),并在观察性医疗结果伙伴关系(OMOP)数据模型中进行了协调。数据库以及数据链接和协调过程在其他地方有更详细的描述。简而言之,索赔数据中的病例定义基于诊断(ICD-10-GM)、德国版国际医学程序分类(OPS)和处方(解剖治疗化学代码(ATC))的相应编码系统。纳入标准是主要诊断为中风(出血性I61或缺血性I63,ICD-10-GM)、年龄≥18岁的住院患者。未定义其他排除标准。进行了多次迭代医学专家小组,以就纳入标准、相关风险因素和要测量的结果达成共识。索赔数据包括来自社会人口统计学和合并症的患者相关因素。仅包括医院本身无法影响的因素。然而,过程指标(例如,治疗)和结果指标未被选为风险因素,因为质量指标旨在调整/检测这些领域的潜在质量差异。
结果
考虑了三个二元结果:30天死亡率、90天内再梗死和180天内护理等级提升。30天死亡率如果入院日期和死亡日期之间最多30天则被认为发生。90天内再梗死如果入院日期和新的主要出院诊断为中风(ICD 10:I61/I63)的住院之间最多90天则达成。180天内护理等级提升定义为入院日期和护理等级提升之间最多180天。在德国,护理等级分为五个级别。在时间段内新的分类或级别升级计为提升。
数据准备和建模
数据准备和清理在其他地方有更详细的描述。模型构建和比较分析使用R 4.2.225进行,主要采用caret包。我们部署了极端梯度提升(XGBoost)来估计所有患者达到结果的概率。XGBoost是一种广泛使用的强大机器学习方法,在预测中风相关结果方面表现出竞争性性能。我们应用了70:30的训练/测试分割,并在未见的测试数据集上比较了有和无临床信息的模型性能。除其他外,我们依赖受试者工作特征曲线下面积(ROC-AUC)和Brier分数(BS)作为比较指标。特征重要性图用于推导各个变量(如入院时的美国国立卫生研究院卒中量表(NIHSS))的影响。NIHSS被用作每位患者中风严重程度的代理,并从所包括医院的临床信息系统中提取(如果可用)。这个广泛使用的医生报告评分是一种标准化的临床工具,用于评估中风患者的神经功能损害严重程度。该量表评估意识、视力、运动技能、言语和感觉反应等关键功能,并提供反映中风程度的评分。评分范围从0到42,分数越高表示损害越严重。
标准化事件比率(SER/SMR)的计算
我们使用R中的ems包对事件率进行间接标准化。为了形成SER/SMR,将观察到的结果事件率与预期事件率(从模型计算的概率)进行比较。使用Byar近似生成置信区间(CI)。最后,使用SER对研究中的医院进行排名。将仅基于索赔数据的排名与包含NIHSS的排名进行比较。Spearman等级相关被用作统计度量。
敏感性分析
作为敏感性分析,我们重复了整个过程,但仅针对30天死亡率这一主要结果。此外,排除了所有NIHSS为32的患者。
【全文结束】


