摘要
背景 针对无心血管疾病(CVD)人群的房颤(AF)预测模型存在缺口,本研究旨在开发并验证基于常规生物标志物的机器学习预测模型,用于中年无明显CVD人群的早期干预。
方法 数据来自瑞典AMORIS队列122,822名40-65岁基线无CVD诊断的参与者(1985-96年入组),随访20年记录新发AF病例。将样本分为训练集和验证集,采用随机森林算法从16项涵盖血脂、肝肾功能、血糖调控及炎症的常规生物标志物中筛选AF预测因子。
结果 平均随访18.1年期间,8.4%参与者确诊AF。添加前7个预测因子时模型性能显著提升,后续增加变量趋于平台期。最终模型确定7项预测因子:年龄、白蛋白、尿酸、甘油三酯、血糖、碱性磷酸酶及性别。模型在训练集和验证集的C统计量分别为0.82(95%CI:0.81-0.82)和0.71(0.70-0.72)。模型在全样本及年龄、性别亚组均显示良好校准能力。
结论 本研究首次在无基础CVD人群中建立基于7项生物标志物的AF预测模型,补充现有预测体系。该模型所需生物标志物在基层和专科医疗中易于获取,可实现短期(5年)和长期(20年)AF风险的有效预测。
本研究已知进展
- 现有房颤预测模型主要集中于已有心血管疾病人群,无法有效区分健康人群风险。针对无基础CVD中年人群的AF预测模型仍属空白。
本研究创新点
- 在122,822名无基础CVD的40-65岁人群中,开发并验证了基于5项常规生物标志物(白蛋白、尿酸、甘油三酯、血糖、碱性磷酸酶)及年龄性别的机器学习预测模型。外部验证显示该模型具有可接受区分度(5年预测0.74,20年预测0.71)。这是首个仅需常规检测数据、无需额外检查的AF预测模型。
研究影响
- 强调常规生物标志物在预测健康人群短期和长期AF风险中的价值。该模型可辅助临床识别高危人群,实施早期干预。
引言
房颤是老年人群最常见的心律失常,是缺血性卒中、心力衰竭和死亡的重要诱因。全球房颤患者预计2023年达6,000万例,若缺乏有效预防,2060年将翻倍。AF风险预测对随访管理至关重要,针对高危人群的早期干预可降低疾病负担,优化医疗资源配置。
传统心血管风险因素(CRFs)和CVD已被纳入多种AF预测模型(如CHARGE-AF、C2HEST、ARIC-AF模型)。但CRFs和CVD仅能解释约50%的人群归因风险。Framingham心脏研究显示,即便55岁时无CRF或CVD,男性终生AF风险仍达29.8%,女性达23.4%。这提示存在其他中年影响因素。既往研究发现,中年时期作为炎症标志物的尿酸升高,是AF的强风险因子,即使无其他共存CVD。类似关联也在血脂和肾功能标志物中被观察到。分析无CVD人群且无临床指征下测量的循环生物标志物,可能为健康人群AF预测提供新见解。结合中年生物标志物水平预测未来AF风险,并评估多重生物标志物水平的协同影响,可能通过生活方式和饮食调整实现高危人群的早期预防。
本研究采用机器学习方法(随机森林),基于大型瑞典AMORIS队列(122,822名40-65岁,20年随访)建立并验证新型AF预测模型。机器学习模型相比传统Cox回归或评分法具有优势,能有效处理预测因子间的交互作用和非线性关联。
方法
研究人群
AMORIS队列自1985-1996年招募812,073名瑞典居民,通过CALAB实验室进行健康检查。选取128,626名40-65岁且具备完整生物标志物数据的参与者,排除迁移者(345人)、信息缺失(288人)、采血当日死亡(110人)、既往AF(669人)和心血管疾病史(4,392人)者后,最终纳入122,822名无明显CVD的基线参与者。通过国家患者登记和死亡原因登记系统随访至首次AF诊断、迁移、死亡或随访结束。
候选生物标志物
CALAB标准检测包括白蛋白、尿酸、甘油三酯、总胆固醇、血糖、铁、碱性磷酸酶、γ-谷氨酰转移酶、结合珠蛋白、天冬氨酸转氨酶、丙氨酸转氨酶、估算肾小球滤过率、果糖胺、C反应蛋白等16项变量,涵盖脂代谢、肝肾功能、血糖调控和炎症状态。
AF和其他疾病的判定
通过NPR和死亡登记识别新发AF(ICD-8:427.90/92;ICD-9:427.3;ICD-10:I48)。其他基线CVD根据ICD编码判定。
模型开发与验证
按居住地区(北斯德哥尔摩65.7%训练集,南斯德哥尔摩34.3%验证集)划分数据集,这种非随机划分设计强于随机划分。训练集开发包含年龄、性别和14项生物标志物的初始模型,采用随机生存森林处理生存时间数据,通过最大化对数秩检验统计量分割节点。优化超参数(最小节点规模和分割预测变量数)后,计算AF生存概率,并通过反向分割法评估变量重要性。最终模型验证采用C统计量,并通过五分位分组比较预测和观察概率评估校准度。逐步前向选择策略根据变量重要性排序优化预测因子数量,当新增变量对C统计量无显著提升时确定最终模型。
结果
基线平均年龄50.8岁,女性占46.9%。平均随访18.1年期间,8.4%发展为AF。训练集(8.5%)和验证集(8.3%)AF发病率相近。初始模型包含16个变量,在训练集和验证集C统计量分别为0.81和0.71。变量重要性排序显示年龄最重要,其次为白蛋白、尿酸和甘油三酯。前7个预测因子使AUC显著提升,随后趋于平台。最终模型包含年龄、白蛋白、尿酸、甘油三酯、血糖、碱性磷酸酶和性别7项变量。训练集Cox回归显示这些生物标志物与AF存在线性关联。验证集最终模型C统计量保持0.71,5年预测达0.74。模型在校准度上表现良好,尤其在10年预测中,20年预测在最低风险五分位稍显偏差。
讨论
本研究建立并验证了首个基于常规生物标志物的AF预测模型,适用于无明显CVD的中年群体。模型通过7项临床常规可检测标志物(白蛋白、尿酸、甘油三酯、血糖、碱性磷酸酶、年龄和性别)实现可接受预测性能,校准度良好。与既往依赖CVD临床诊断的模型相比,本模型更适用于健康人群早期风险分层。
现有AF预测模型多基于老年人群CVD临床诊断,如CHARGE-AF(5年预测C统计量0.71)和FHS-AF(10年预测0.70)。包含NT-proBNP和多基因风险评分的模型虽将C统计量提升至0.85,但临床适用性受限于非常规检测。本模型优势在于完全基于常规检测数据,可直接应用于临床实践,且生物标志物与不良生活方式相关,为早期干预提供可调控靶点。
模型具有AF筛查和卒中预防潜力,可提升无症状AF检测效率。尽管年龄是最重要的风险因子,但生物标志物如尿酸和葡萄糖通过促进炎症和氧化应激参与AF病理机制。值得注意的是,C反应蛋白在本模型中预测价值最低,可能因其在代谢标志物存在时更多作为中介因素。
本研究优势包括大样本和广泛生物标志物覆盖,但也存在局限:未直接评估生活方式因素;模型适用性限于欧洲血统人群;2001年前门诊AF可能遗漏;单次生物标志物测量未反映动态变化。
结论
本研究开发了首个基于机器学习和常规生物标志物的AF预测模型,适用于无明显CVD的中年群体。该模型具有良好的校准度和可接受区分度(外部验证5年预测0.74,20年0.71),可利用现有临床数据实现AF高风险人群的早期识别和干预。研究结果强调了常规生物标志物在预测短期和长期AF风险中的潜在价值。
【全文结束】


