背景
心力衰竭(HF)老年患者的风险预测通常依赖于传统临床变量,且未纳入身体功能的直接测量指标。本研究旨在开发和验证一种机器学习模型,该模型整合常规收集的功能评估数据,以预测一年全因死亡率。
方法
我们分析了J-Proof HF登记库的数据,这是一项涵盖日本96家机构的全国性前瞻性队列研究。研究对象为2020年12月至2022年3月期间因心力衰竭住院并接受康复处方的≥65岁患者。采用77个候选预测因子(包括人口统计学、临床、实验室、超声心动图和直接测量的功能变量)开发了极端梯度提升(XGBoost)模型。验证采用留一机构出(LOSO)内部-外部框架。将模型的区分能力、校准度和临床实用性与已建立的风险评分进行比较。通过基于SHAP的重要性分析和临床审查,推导出包含20个预测因子的模型。
结果
在9700名符合条件的患者中,中位年龄为83岁(四分位距[IQR] 77-88),4915名(50.7%)为男性,1601名(16.5%)在一年内死亡。完整XGBoost模型在LOSO测试集上的聚合受试者工作特征曲线下面积(AUC)为0.76(95%置信区间[CI] 0.75-0.77)。20预测因子XGBoost模型显示出相似的区分能力(AUC 0.76;95% CI 0.74-0.77)。两种模型的性能均优于AHEAD和BIOSTAT简化的评分系统。出院时的功能测量指标,包括Barthel指数、短距离体能测试、步速和握力,是模型预测中最重要的贡献因素。重新分类指标和决策曲线分析表明,与基准评分相比,本模型具有更高的临床实用性。
解释
整合功能评估的机器学习模型可预测心力衰竭老年患者的一年死亡率,并在现有评分基础上改进风险分层。出院时的功能状态是一个重要的预后指标,可能为出院后的护理规划提供参考。
资金
本工作得到了日本心血管物理治疗学会研究资金和日本学术振兴会(JSPS)KAKENHI基金编号JP25K02969的支持。
本研究前的证据
我们对老年心力衰竭(HF)患者的预后模型进行了系统性检索。现有模型存在若干局限性。传统的统计评分,如西雅图心力衰竭模型(SHFM)和MAGGIC评分,通常缺乏客观的、基于表现的身体功能测量指标,而这些指标是老年群体结局的关键决定因素,并且在亚洲队列中表现出衰减的性能。尽管许多机器学习(ML)模型显示出更高的预测准确性,但其临床适用性通常受到限制。许多这类研究依赖于回顾性行政索赔数据或电子健康记录,这些数据通常无法捕获粒度化的、客观测量的功能数据,如步速或体能表现评分。此外,它们的验证通常局限于单中心或回顾性数据集,阻碍了对其泛化能力的信心。我们的综述确定了对一种预后工具的明确需求,该工具能够整合从前瞻性、多中心队列获得的客观功能数据,并经过严格验证以供广泛临床使用。
本研究的附加价值
本研究通过使用来自日本96家机构中9700名老年HF患者的前瞻性、全国性队列数据开发和验证ML模型,直接解决了这些差距。与从索赔数据派生的模型不同,我们的研究纳入了由训练有素的治疗师直接测量的、基于表现的功能评估,提供了对患者脆弱性的更全面视图。主要附加价值在于严格的验证方法;我们采用了留一机构出(LOSO)内部-外部框架,该框架对模型在96个不同、未见过的机构环境中的泛化能力提供了稳健评估。我们的精简20变量模型展示了可接受且一致的区分能力(宏观平均受试者工作特征曲线下面积0.76),并且与已建立的评分相比提供了优越的临床实用性,这通过净再分类改善(NRI)和决策曲线分析(DCA)的显著改进得到证实。
所有可用证据的含义
现有证据,结合我们的发现,表明老年HF风险分层的未来需要将综合功能评估与高级分析方法相结合。我们的研究提供了一个经过稳健验证的、精简的模型,作为将这一概念转化为临床实践的实用工具。该模型有效地将患者分为低、中、高风险组,使医疗资源的针对性分配成为可能,例如加强康复或更密切的随访,正如我们在提议的临床路径和原型基于网络的工具中所展示的。因此,这项工作不仅为一个代表性不足的老年亚洲人群提供了一个临床相关的预测工具,还为开发和严格验证可泛化且最终可实施的AI模型以服务于脆弱患者群体提供了方法论蓝图。
引言
心力衰竭(HF)代表着一个全球健康挑战,其特征是高发病率、高死亡率和对医疗系统的沉重负担。在快速老龄化的社会中,特别是在东亚如日本,HF的临床图景尤为复杂。老年HF患者通常表现出非典型症状,并以共病高发为特征,如虚弱、少肌症和认知障碍,导致临床结局异质性高。这些特点使HF日益成为一种典型的老年综合征,其预后不仅受心脏功能影响,还受到身体、认知和社会因素复杂相互作用的影响。因此,仅依赖心脏特异性指标的传统预后评估对于这一人群往往不足,突显了对风险分层采取更全面方法的必要性。尽管心脏康复(CR)是综合性HF护理的关键组成部分,但参与率仍然不理想,这强调了需要更好的风险分层来指导出院后的规划。
有效分配医疗资源需要精确的风险分层,然而广泛使用的预后模型,如西雅图心力衰竭模型(SHFM)和慢性心力衰竭全球组荟萃分析(MAGGIC)评分,在这方面存在局限性。这些模型主要依赖心脏特异性和生物医学变量,常常低估了身体功能、虚弱和营养状况等非心脏因素的影响,而这些因素是老年人预后的关键决定因素。此外,由于这些模型主要是使用北美和欧洲人群的数据开发的,它们对包括日本在内的亚洲老年人的适用性仍然有限。这种忽视功能和社会脆弱性的倾向可能导致对脆弱患者风险的低估,限制了它们在指导个性化护理方面的效用。
机器学习(ML)可以通过捕捉各种临床变量之间复杂的非线性相互作用来解决这些局限性,在各种心血管背景下表现出比传统统计方法更优越的预测性能。然而,许多ML研究依赖于回顾性索赔数据或电子健康记录,这些数据不包括如客观测量的身体功能等关键信息。我们的研究通过使用日本的全国性、多中心、前瞻性登记库来解决这些差距,该登记库整合了基于表现的身体功能测量指标——这些数据在床边易于评估,但在基于索赔的分析中未被捕获。因此,本研究的主要目标是通过整合常规临床变量和这些客观功能评估来开发和严格验证一个针对一年死亡率的临床实用预后模型,从而增强对这一脆弱人群的个性化护理。
研究设计和参与者
本研究是日本物理治疗多中心老年衰弱心力衰竭患者登记库(J-Proof HF)登记库的二次预测模型分析,该登记库是在日本96家机构进行的前瞻性、全国性、多中心队列研究。登记库在2020年12月至2022年3月期间招募参与者。在本研究中,我们纳入了登记库中≥65岁因HF住院并被处方物理康复的连续患者。
纳入标准包括因HF住院、年龄≥65岁以及被处方物理康复。排除标准为:(1)院内死亡,(2)在指数住院期间接受侵入性手术(如经导管主动脉瓣植入术、MitraClip或心脏手术),(3)急性冠脉综合征作为入院主要原因,以及(4)入院前卧床不起。
本研究根据《赫尔辛基宣言》进行。顺天堂大学(东京,日本;批准号:19-005)的中央伦理委员会和所有参与机构的伦理委员会批准了该方案。根据机构政策,获得书面同意或选择退出方式的同意。该研究已在大学医院医学信息网络(UMIN)临床试验注册中心注册(编号:UMIN000047893)。预测模型的报告遵循多变量预测模型透明报告(TRIPOD)和TRIPOD-人工智能(TRIPOD-AI)指南。
数据收集
J-Proof HF登记库的数据在入院和出院时收集。
入院时,研究人员从医疗记录中提取了人口统计数据、共病、纽约心脏协会(NYHA)功能分级、实验室结果和超声心动图参数。还记录了入院前功能状态,包括Barthel指数(BI)和基本检查清单(KCL)评分。
出院时,持证物理治疗师根据标准化方案进行基于表现的功能评估,包括短距离体能测试(SPPB)、握力、步速和肢体周长。日常生活活动(ADL)使用BI和(如可用)功能独立性测量(FIM)重新评估。
提交给中央数据中心的所有数据都经过了质量控制过程。首先由专职数据管理员检查数据是否存在遗漏、输入错误和异常值。参与机构解决了查询,清理后的数据集在分析前由两名调查员验证。
结果
主要结果是出院后一年内的全因死亡率。通过分层随访方案确定生存状态:(1)邮寄问卷,(2)电话随访,以及(3)对返回参与机构的患者进行医疗记录审查。该登记库不包括计划的中期随访;因此,生存状态仅在预定义的一年时间点收集一次。所有预测变量均在指数住院期间获得,模型开发或验证未使用随访数据。
对于死亡患者,记录死亡日期和原因(如可获得),并分为心血管(CV)或非CV死亡。无法通过任何这些方法确认生存状态的患者被排除在分析之外。
候选预测因子
登记库中所有可用变量均被考虑,无需事先进行单变量筛选。候选预测因子的完整列表(包括定义、测量方法和单位)在补充材料中提供。
基线特征:年龄、性别、身体质量指数(BMI)、HF病因、NYHA功能分级、共病和HF住院史。入院前功能状态使用BI和KCL进行评估。
住院和出院数据:住院时间、出院去向、超声心动图和实验室结果,以及物理治疗的细节(如总单元数、特定训练执行情况如耐力或阻力训练)。
出院时的身体和认知功能:SPPB、握力、步速和肢体周长(上臂和小腿)。SPPB按照原始标准化方案管理,评估平衡、步速和下肢力量。ADL使用BI和FIM进行评估。所有评估均由持证物理治疗师进行。身体虚弱使用日本心血管健康研究(J-CHS)指数进行评估。认知障碍定义为在以下任何一项中的得分低于既定阈值:Hasegawa痴呆量表修订版(HDS-R <21)、简易精神状态检查(MMSE <24)、微型认知评估工具(Mini-Cog <3)或蒙特利尔认知评估-日本版(MoCA-J <26)。
药物:记录出院处方,特别关注HF的指南导向药物治疗,包括血管紧张素转换酶抑制剂(ACE-I)/血管紧张素受体阻滞剂(ARB)、血管紧张素受体-脑啡肽酶抑制剂(ARNI)、β-受体阻滞剂、盐皮质激素受体拮抗剂(MRA)和钠-葡萄糖协同转运蛋白2(SGLT2)抑制剂。
模型开发和验证
我们的主要预测模型使用XGBoost算法开发,并通过嵌套的留一机构出(LOSO)交叉验证框架对其性能进行了严格评估,以确保在机构间的泛化能力。在外层循环中,一个机构被保留作为测试站点,而其余站点形成开发集。在开发集内,使用具有早期停止的五折交叉验证优化超参数。
在此框架内评估了两种XGBoost模型:(1)使用所有可用预测因子的完整模型,以及(2)通过"预测因子选择"部分描述的过程得出的精简Top-20模型。对于每次LOSO迭代和两种模型,在训练设施上执行完整的开发流程。这包括用于超参数调优的五折交叉验证,然后使用优化参数和早期停止标准在所有训练设施上训练最终模型,以防止过拟合。
然后评估每个保留站点的模型性能,并在所有96次迭代中聚合,以计算宏观平均性能指标,包括受试者工作特征曲线下面积(AUC)及其95%置信区间(CI)。
为了确定我们的模型的性能背景,我们将模型与两个已建立的临床风险评分进行了比较:AHEAD (心房颤动、血红蛋白、老年、异常肾参数、糖尿病)评分和BIOSTAT (BIOlogy Study to TAilored Treatment in Chronic Heart Failure)简化的模型。由于它们在类似的住院HF人群中开发,因此选择了这些模型。其他广泛引用的评分,如MAGGIC和SHFM评分,需要在我们的登记库中未系统收集的变量,排除了公平比较的可能性。
为了确保我们的解释反映了模型在未见数据上的性能,使用SHapley Additive exPlanations (SHAP)值检查了模型可解释性,这些值仅在LOSO交叉验证的每次折叠中保留的测试集上计算。
预测因子选择
Top-20 XGBoost模型是通过集成数据驱动和专家驱动的特征选择的混合过程构建的。首先,根据从LOSO分析中聚合的平均绝对SHAP值对完整XGBoost模型中的所有变量进行排名。这个排名由一个由两名物理治疗师和一名心脏病专家组成的共识小组进行审查,他们在不知道模型结果的情况下,根据SHAP重要性、既定临床证据和实际可解释性的组合选择了最终20个预测因子。
最终20个预测变量包括:
- 人口统计学和共病(6项):年龄、性别(男性)、HF住院史、出院时用药(ACE-I/ARB/ARNI)、慢性阻塞性肺病(COPD)史、癌症史
- 入院时实验室和超声心动图数据(7项):血清白蛋白、C反应蛋白(对数转换)、血清钠、估算肾小球滤过率、利钠肽(BNP或NT-proBNP)、左心室射血分数、左心房直径
- 入院前和出院时功能/人体测量数据(7项):Kihon清单评分、出院时BMI、出院时Barthel指数、出院时握力、出院时短距离体能测试总分、出院时最大小腿周长、出院时最大步速
风险分层和生存分析
根据预测的一年死亡概率的三分位数,将完整分析队列中的患者分为三组风险(低、中、高)。这些预测风险是从在整个队列上训练的最终Top-20 XGBoost模型获得的。
使用Kaplan-Meier曲线评估三组间总体生存的差异,并使用对数秩检验评估统计显著性。
为进一步检查预测风险与死亡方式之间的关联,计算了随访期间死亡患者中各风险组内CV和非CV死亡的比例。
临床实用性评估
性能指标在嵌套LOSO交叉验证框架的保留测试集上聚合。排除了患者少于10名或单一类别结果的站点。
使用AUC及其95% CI评估模型的区分能力。还计算了精确-召回曲线下面积(AUPRC),并使用DeLong检验比较AUC。使用校准图评估模型校准。
在临床相关风险阈值20%处计算净再分类改善(NRI),以量化与已建立的基准评分(AHEAD评分和BIOSTAT简化的)相比分类性能的改进。最后,使用决策曲线分析(DCA)评估精简模型的临床实用性,该分析量化了在一系列阈值概率下的净收益。
结果
基线特征
J-Proof HF登记库在2020年12月至2022年3月期间在96家机构共登记了10,052名患者。排除住院期间死亡的患者(n=335)和一年死亡率数据缺失的患者(n=17)后,最终分析队列包括9700名出院后存活的患者。
该队列的中位年龄为83岁,50.7%为男性,中位左心室射血分数为49%。高血压常见(68.9%),而入院前功能独立性通常保持良好(中位BI,100)。在一年随访期间,观察到1601例死亡,对应总体一年死亡率为16.5%。
模型性能和验证
在使用LOSO内部-外部验证的主要分析中,Top-20 XGBoost模型实现了与完整模型相当的区分能力。XGBoost模型的宏观平均AUC为0.76(95% CI,0.74-0.77),完整XGBoost模型为0.76(95% CI,0.75-0.77),CI重叠。将预测因子数量从77个减少到20个并未导致性能的明显损失。
两种XGBoost模型的性能均优于AHEAD和BIOSTAT简化的评分,其AUC分别为0.60(95% CI,0.58-0.61)和0.61(95% CI,0.59-0.62)。DeLong检验证实,Top-20 XGBoost模型的AUC显著高于AHEAD评分(绝对差异,0.16;95% CI,0.14-0.18;p<0.001)和BIOSTAT简化的评分(绝对差异,0.15;95% CI,0.13-0.16;p<0.001)。
Top-20 XGBoost模型也显示出良好的校准性,预测和观察到的一年死亡率之间达成良好一致。将该模型应用于较短期结果(如30天和180天死亡率)时,风险被高估,因为预测概率往往超过观察到的事件率。
临床实用性评估
为了评估Top-20 XGBoost模型是否改善了患者风险分层,在预设的20%风险阈值处计算了类别NRI。与AHEAD评分相比,Top-20 XGBoost模型实现了21.3%的总体NRI(95% CI,17.8%-24.7%),事件和非事件均有积极贡献。与BIOSTAT简化的评分相比,总体NRI为24.0%(95% CI,20.7%-27.5%),主要反映了事件分类的改进,而非事件分类显示出轻微下降。
决策曲线分析表明,Top-20 XGBoost模型在10-40%的阈值概率范围内提供了比两种临床评分以及"全部治疗"和"不治疗"策略更大的净收益。这种模式在所有LOSO测试集中一致,支持该模型潜在的临床有用性。
模型可解释性:SHAP分析
为了表征对完整XGBoost模型有贡献的预测因子,进行了SHAP分析。SHAP摘要图显示了前30个特征的相对重要性和方向效应。身体功能和虚弱的测量指标——特别是出院时的BI和SPPB评分——是最有影响力的预测因子。较高的BI分数与较低的估计风险相关。血清白蛋白和性别也是重要贡献者,强调了功能状态和临床变量在预测一年死亡率中的综合相关性。
风险分层
将最终Top-20模型应用于整个队列进行风险分层,在Kaplan-Meier曲线中显示了三个风险组之间的明显分离(log-rank p<0.001)。一年全因死亡率在风险分层中显著增加:低风险组为2.5%,中风险组为11.5%,高风险组为35.5%。CV和非CV死亡也观察到类似的梯度。在812例CV死亡中,大多数(n=719,88.5%)归因于HF恶化。
讨论
在这项针对HF老年患者的前瞻性、多中心队列研究中,我们开发并验证了一种预测一年全因死亡率的机器学习模型。该模型表现出可接受的区分能力,并优于已建立的临床风险评分。出院时的身体功能客观测量指标成为主要预测因子。值得注意的是,一个简化的20变量模型实现了与完整模型相当的性能,为临床使用提供了更可行的结构。
我们的模型性能与SHFM和MAGGIC评分等已建立的工具相当,或在某些方面更优。AHEAD和BIOSTAT简化的评分仅表现出中等性能,这与先前的日本研究一致,这些研究报道了西方衍生评分在该人群中的性能衰减。常规模型往往低估了老年、虚弱患者的風險,这些患者的臨床軌跡難以預測。BI和SPPB在我們分析中的突出地位在臨床上是合理的。功能障礙反映了多個生理系統的累積脆弱性,提供了超越器官特異性標記的預後信息。同樣,血清白蛋白、eGFR和C反應蛋白的高排名突顯了腎功能障礙和系統性炎症的預後影響。癌症等共病的納入說明了該模型如何整合對準確風險分層至關重要的虛弱多領域標記。
ML為建模HF老年患者提供了方法學優勢,這涉及非線性和交互關係,線性模型難以近似。值得注意的是,XGBoost和LASSO在完整案例敏感性分析中表現相當(AUC 0.72 vs. 0.70)。這一發現可能反映了完整案例子集的性質,該子集排除了缺失數據的患者——通常是那些功能限制更嚴重的患者——導致更同質的樣本,其中複雜模型的好處減少。在我們對完整隊列的主要分析中,XGBoost處理非線性效應、交互作用和信息性缺失的能力,使它能夠捕捉線性回歸模型可能忽略的臨床有意義的模式,這可能有助於其細微但一致的性能優勢。
最終的20變量模型使用常規可獲得的測量指標,可以整合到出院工作流程中。該模型的作用是塑造出院後護理策略,而不是確定出院資格。它使臨床醫生能夠識別可能受益於強化康復、更密切監測或多學科護理的高風險個體,如我們提出的臨床路徑所示。此外,個體化風險估計可以促進與患者和家屬的共同決策。然而,成功的實施需要標準化的功能評估、定期的模型重新校準以及對電子集成的機構支持。這些考慮對服務於老齡化人口的醫療系統至關重要,特別是在亞洲國家,那裡的隊列具有獨特特徵,可能限制西方衍生評分的適用性。
結論
在這項針對HF老年患者的大型全國性隊列研究中,一個整合詳細功能測量指標的機器學習模型在預測一年死亡率方面表現出比傳統臨床風險評分更高的準確性。我們的研究結果表明,出院時的身體功能是生存的一個至關重要的決定因素,其重要性可與傳統的心血管風險因素媲美。這項研究強調了將全面的老年和功能評估整合到HF老年患者常規管理和風險分層中的重要價值。
【全文结束】

