全国性研究中的数据驱动型心血管和脑血管疾病预测Data-driven prediction of cardiovascular and cerebrovascular diseases in a nationwide study

环球医讯 / 心脑血管来源:www.nature.com韩国 - 英文2025-07-16 02:52:25 - 阅读时长15分钟 - 7410字
该研究利用韩国国家健康保险服务的样本队列数据,通过多种线性模型预测不同健康状况患者的心脑血管疾病发病率,并比较模型性能,强调了开发多样化预测模型的重要性,为心脑血管疾病的预防和管理策略提供了科学依据。
心血管疾病脑血管疾病健康检查风险因素预测模型逻辑回归LASSO算法健康管理保险政策个性化风险评估
全国性研究中的数据驱动型心血管和脑血管疾病预测

摘要

随着预防和预先管理心血管和脑血管疾病的重要性日益显现,全球范围内正开展研究,使用健康检查大数据创建并比较风险因素预测模型。本研究利用健康保险数据,通过各种模型预测心脑血管疾病的发生率,并在具有不同初始风险水平的样本上比较模型的性能。本研究分析了2002年至2019年间来自韩国国家健康保险服务(NHIS)的410,859名个体的数据。本研究部署了各种线性模型来预测两类不同样本中心脑血管疾病的发生。基于对目标函数添加惩罚项的逻辑回归分析模型被使用,并通过多个评估指标(包括接收者操作特征曲线下面积)比较其预测性能。结合LASSO算法选择变量的逻辑回归模型相对于其他模型表现出优越的预测性能,尽管差异不具有统计学显著性。对于具有较高发病率和初始风险水平的样本,模型的性能有所提高。本研究利用国家健康保险服务的国家样本队列数据,预测并比较了不同健康状况患者的心脑血管疾病(CCVD)发病率。研究结果突显了开发多样化模型以预测像CCVD这样具有高医疗成本和发病率的疾病的重要性,从而为制定卫生政策提供信息。

引言

由于人口老龄化和健康行为的变化,心血管疾病的发病率稳步上升,导致疾病流行率和医疗费用负担不断增加。在韩国,过去十年中心血管和脑血管疾病的死亡率上升了7%,与这些病症相关的医疗费用约占全国总医疗费用的17%。

保持健康的生活方式对于预防心血管和脑血管疾病至关重要。吸烟、不健康的饮食习惯、缺乏运动和饮酒等风险因素一直被认为会增加患心血管疾病的可能性。随着年龄的增长,长期暴露于这些有害的生活方式行为以及环境因素,进一步提高了心血管和脑血管疾病的风险。因此,随着人口老龄化,这些疾病的发病率和相关的医疗费用预计会显著增加。

与心血管和脑血管疾病相关的生活方式习惯是可以改变的,这些疾病通常可以通过行为改善来预防。预防和早期管理心血管和脑血管疾病是减少未来疾病负担和缓解飙升的医疗费用的有效策略。根据最近利用国内外医疗保健系统大数据的研究,通过医疗干预和行为改变预防慢性病的证据得到了加强。

以前的研究主要集中在利用大规模健康检查数据识别心血管疾病的风险因素并开发预测模型。然而,大多数这些研究依赖简单的回归分析或机器学习技术,这些技术因解释复杂性增加和过拟合问题而存在局限性。为了解决这些挑战,本研究采用线性模型和惩罚线性模型,特别是LASSO和岭回归,来预测心脑血管疾病的风险。这些模型通过变量选择和降维增强可解释性,同时减轻过拟合并提高泛化能力。此外,为了考虑个体健康状况和风险因素的异质性,本研究结合私人健康保险中常用的核保标准,将样本分为两组:标准风险组和简化风险组,基于初始风险水平。这种分类促进了个性化风险预测,并能够开发差异化风险管理策略,从而增强了研究结果的实际应用性。

因此,本研究的目标如下。首先,利用NHIS大数据,通过应用各种线性和惩罚线性模型,本研究旨在预测心脑血管疾病的风险。其次,它寻求识别基于初始风险水平分类的每个组的关键风险因素。通过实现这些目标,本研究旨在提供科学证据,支持开发更有效的心脑血管疾病预防和管理策略。

在本研究中,利用线性和惩罚线性模型来预测心脑血管疾病的发病率。虽然存在从线性模型到机器学习方法的各种主要慢性病预测模型,但许多缺乏外部验证且高度特定于研究背景,这限制了它们的泛化能力。因此,使用具有全国代表性的样本和保险公司常用的风险评估和核保方法,本研究应用逻辑回归模型,因为它们广泛使用、可解释性强且计算效率高。

方法

数据来源和研究人群

本研究利用韩国国家健康保险服务国家样本队列(NHIS-NSC)作为主要数据源来开发CCVDs的预测模型(NHIS-2022-2-318,IRB编号P01-202206-01-031)。NHIS覆盖超过97%的人口,使用比例分配法提取了2%的随机样本,考虑了性别、年龄、注册类型、保险费分位数和地区等因素。抽样基于2006年的国家健康保险参保人,数据收集自各种数据库,包括资格因素(性别、年龄、保险费等)、健康检查信息(体重指数[BMI]、腰围、血压、自我报告问卷等)和医院使用数据(住院、诊断、处方等),时间范围为2002年至2019年。有关NHIS-NSC代表性和补充信息的更多详细信息可以在可用资料中找到。

心血管疾病的确诊

在此分析中,脑血管疾病(I60-I69)和缺血性心脏病(I20-I25)被用作表示CCVDs的因变量。还定义了CCVDs的亚型用于额外分析,包括中风(I60-I66,排除I64)、脑出血(I60-I62)和急性心肌梗死(I21-I23)。基线年份为2014年,使用5年随访期预测新诊断的CCVDs。为了确保排除先前已诊断出CCVD的患者,清洗期定义为2010年至2014年。

样本选择

预测模型中使用的特征包括每两年进行一次的健康检查变量。最初,提取了418,208名在2013年或2014年有健康检查数据且在2010年至2014年之间未诊断出CCVD的参与者。排除了主要检查变量或资格条件缺失的参与者,最终的研究人群总数为410,859名参与者。创建了两个组别以开发符合条件的个体的CCVD预测模型。基于表1中列出的条件和操作定义,126和413个样本符合标准化保险申请表的标准(以下简称“标准组”),268,912个样本通过恢复抽样满足简化登记表的条件(以下简称“简化组”)。“标准”组包括对问题A和问题B均回答“否”的个体,而“简化”组包括对问题C和问题D均回答“否”的个体。标准问题在住院、手术和处方方面比简化问题更为严格。因此,“简化”组涵盖了“标准”组。从样本中排除的15,534人是对任何简化问题回答“是”的个体。关于筛选简化和标准私人保险投保人的详细讨论可以在文献中找到。

表1 标准化和简化的私人健康保险登记表。

本研究中的项目出于两个目的进行选择:反映潜在投保人在开始保险合同前通常向保险公司提供的问卷反应,并在数据集中进行操作定义。标准筛查表问题通常要求更长的时间段,通常长达5年,在此期间个体不得有任何医疗问题,包括住院、手术或诊断出的疾病。相比之下,为次标准健康状况设计的简化筛查表则需要较短的无住院或手术间隔。疾病诊断仅限于严重情况,如癌症。

表2总结了三个样本的描述性统计;结果事件的发病率按标准组、简化登记组和未进行任何筛选过程的群体(称为“全部”组)的顺序增加。特别是,标准组的发病率约为整体发病率的三分之一。健康检查指标和年龄分布也呈现类似模式。标准组样本的特点是年龄较小,并且空腹血清甘油三酯、收缩压(SBP)和各种其他健康检查指标或家族史记录低于其他组。

表2 描述性统计摘要。

变量

预测变量选择如下:性别和年龄信息从资格数据库中提取。从体检数据库中获取了十五个变量,包括BMI、腰围、收缩压、舒张压、血红蛋白、空腹血清、总胆固醇、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、甘油三酯、血清谷草转氨酶、血清谷丙转氨酶、γ-谷氨酰转移酶、尿液试纸测试、血清肌酐和估算肾小球滤过率。

具有指定阈值的变量经过进一步处理,以消除每个指标正常范围标准内的任何风险变化(补充表1)。正常范围内的变量赋值为0,而超出正常范围的变量调整为表示与阈值的绝对差值。这种方法是为了估计超出正常范围的风险增量变化,并捕捉从正常范围内无风险变化到潜在危险范围的转变。当提供的正常范围为单侧时,生成一个表示偏离正常范围阈值的单一变量。对于具有双侧范围的变量,生成两个表示偏离最小和最大边界的变量。例如,如果BMI的正常范围为18.5至22.9,则创建两个变量——LOW_BMI和HIGH_BMI——分别表示与18.5和22.9的距离。

统计分析

为了预测CCVDs的5年累积发病率,我们利用了逻辑回归和惩罚逻辑回归模型,这些模型相较于黑箱模型具有更好的可解释性优势。虽然复杂模型可能提高预测能力,但它们常常模糊了风险因素和结果之间的关系。逻辑回归广泛用于使用多个变量预测二元结果,提供了清晰的变量重要性见解,使其非常适合临床应用,且不会严重损失预测能力。

为了预测CCVDs的5年累积发病率,我们利用了逻辑回归和惩罚逻辑回归模型,这些模型相较于黑箱模型具有更好的可解释性优势。逻辑回归广泛用于使用多个变量预测二元结果。逻辑回归模型由以下公式表示:

$$

y_i = \text{log}\left(\frac{p_i}{1-p_i}\right) = X_i\beta + \epsilon_i

$$

通过检查模型中系数向量$\beta$的符号和大小,可以计算每个风险因素的边际效应,从而直观解释每个预测因子对发生CCVDs可能性的影响。惩罚逻辑回归通过在目标函数中加入$l_1$或$l_2$惩罚项,进一步提升预测性能,减少系数向量的大小,解决过拟合问题。除了性别外,还在系数向量上施加了非负约束,因为特征已经预处理为表示每个健康检查变量正常范围的绝对距离,如前所述。因此,目标函数为:

$$

\widehat{\beta} = \arg\min_{\beta} \left{\frac{1}{2}\sum_{i}^{N}{\left(y_i - X_i\beta\right)}^2 + \lambda_1{\left|\left|\beta\right|\right|}_1 + \lambda_2{\left|\left|\beta\right|\right|}_2\right} : s.t. : \beta \ge 0

$$

在LASSO模型中,$l_1$惩罚($\lambda_1$)将某些系数缩小至零,允许识别最具影响力的预测因子。这一特性有助于变量选择和识别与CCVDs相关的关键风险因素。相反,带有$l_2$惩罚($\lambda_2$)的岭模型减少了系数的大小而不将它们缩减至零。这些正则化技术有助于减少数据依赖性并提高模型的泛化能力。两种模型都提供了可解释的结果,同时有效地解决了多重共线性和过拟合问题。为了模型训练和验证,研究人群被分为80%的训练集和20%的测试集。训练集进一步分为10折,用于使用10折交叉验证进行超参数调优。

结果

预测性能

我们在分析中使用了两个样本:标准组和简化组。标准组经历了更严格的筛选过程,导致CCVD发病率较低,年龄分布较年轻,总体健康检查指标较好。相比之下,简化组表现出较高的发病率和较差的健康状况。这些初始风险因素的差异受筛选过程影响,预计会影响我们模型的预测性能。因此,我们分别为每组单独拟合和训练模型。每组模型的训练过程通过LASSO算法进行特征选择启动。随后,分别进行逻辑回归和岭回归以拟合选定变量。为了比较,还进行了无惩罚的逻辑回归。表3提供了这些模型预测性能的全面比较。在表中,“Logit”指未使用任何惩罚训练的模型;“LASSO”指仅使用LASSO算法训练的模型;“LASSO & Logit”和“LASSO & Ridge”分别指使用LASSO算法选择的预测变量进行逻辑和岭回归的模型。为了全面评估模型,使用AUROC、准确率、召回率和特异性作为评估指标。在评估整体预测能力后,使用AUROC及其置信区间选择最佳阈值来计算准确率、召回率和特异性,无论模型的截止值如何。最后,计算召回率和特异性的几何平均值以评估模型的整体分类能力。

当比较四种模型的评估指标时,特别是在AUROC方面,未使用任何惩罚的逻辑回归和使用LASSO算法选择变量的非负约束逻辑回归表现出优越的预测性能。然而值得注意的是,这些性能度量的差异在统计学上并不显著。这一趋势在几何平均值方面也是一致的。除了标准组中的脑出血和简化组中的缺血性心脏病,这两种模型通常优于其他模型。

简化组的AUROC——具有更多的观察值和事件案例——通常优于标准组。这一趋势也反映在召回率和特异性的几何平均值中,表明简化样本的模型在阳性病例和阴性病例准确性之间的权衡更加平衡。

回归系数

表4显示了使用LASSO算法选择变量的逻辑回归模型估计的具有最高整体AUROC值的系数。尽管无约束逻辑回归也展示了强大的预测性能,但我们遇到了负系数的问题。因为所有变量都被视为风险因素,所以负系数的存在与我们的预期相矛盾。因此,我们将讨论仅限于从带变量选择的逻辑回归获得的回归结果。

表4 使用Lasso算法在标准和简化组中选择变量的逻辑回归系数。

对于某些结果,通过LASSO算法排除的变量用破折号(-)表示,而对于所有结果排除的变量则不包括在表中。本研究得出了几个显著的发现。总体而言,具有心脏病结果(IHD和AMI)的模型和适合标准组的模型经历了更频繁的变量排除。此外,当比较不同疾病间的系数值时,除了脑出血,简化组对于所有疾病一致表现出更高的系数。这意味着在简化登记组内,估计发病率随着每个单位风险因素(如筛选指标(例如血压或年龄))的增加而显著升高。这表明这些风险因素的相同增加在已经具有较高现有风险因素患病率的简化登记组内导致更大的风险升级。这些发现突出了风险因素、疾病发病率和保险登记类型选择之间的相互作用。具体来说,简化登记组内的个体往往具有更大的风险因素负担,倾向于经历各种疾病估计风险的更显著增加。

变量重要性

表5显示了逻辑回归中所选变量的变量重要性。通过对变量进行标准化处理后的逻辑回归计算每个特征的变量重要性。年龄在所有模型中始终是最重要变量。考虑到年龄是一个消耗健康资产的因素,而这些资产无法通过健康检查和自我报告问卷测量,这一发现是合理的。鉴于此,表中显示的除年龄以外的变量重要性为相对重要性;年龄的重要性被设定为100。

表5 使用Lasso算法在标准和简化组中选择变量的逻辑回归变量重要性。

表格中显示出的一个显著发现是与吸烟状态和中风家族史相关的变量重要性增加。此外,性别、BMI和SBP也显示出高水平的重要性。比较两组时,除脑血管疾病外,所有变量的变量重要性排名呈现出相似的模式。特别地,对于缺血性心脏病,两组之间的变量重要性评分非常相似。

讨论

本研究采用了各种线性模型来预测两个不同样本中的CCVD发生率。带有惩罚项的逻辑回归模型在预测性能方面展现出优越的拟合效果,尽管没有统计学显著性。此外,带有选择变量和惩罚项的模型相比于没有任何惩罚项的模型展现了更优的可解释性。值得注意的是,随着样本的发病率和目标疾病的流行率增加,整体模型性能也得到提升。

这些发现突显了定制风险评估以适应具有不同初始健康状况和不同风险因素的个体细微差异的重要性。这种量身定制的方法有望提高疾病预测和保险产品的开发。此外,它们强调了进一步研究和改进针对各种人口群体中特定健康状况的预测建模技术的必要性。

此外,通过分析未排除的回归系数,为了预测心血管和脑血管疾病的风险因素,事先获取吸烟习惯或相关领域的家族史信息是必不可少的。这是因为,在几乎所有模型中,该领域保护的风险的家族史都作为一个具有重要意义的变量出现。几项临床研究表明,家族史是心血管疾病的主要风险因素。以前与韩国预测模型相关的研究没有考虑家族史;因此,无法进行准确的比较。然而,在海外研究中,家族史是使用机器学习的心血管疾病预测模型中的一个重要变量。

在心血管疾病患病率和医疗费用持续增加的情况下,确保定量和客观的基础是至关重要的。心血管疾病占韩国总医疗费用的约17%,因心血管疾病导致的医疗费用负担相当大。在美国,据估计2010年心血管疾病及相关费用的总成本为3154亿美元,而在俄罗斯,截至2009年,心血管疾病相关费用占国内生产总值的0.19%。

这些研究结果对公共卫生政策和保险风险管理具有重要意义。首先,本研究开发的预测模型可以通过提前评估CCVD风险来支持个性化的健康管理与政策干预。它们能够根据健康筛查数据及早识别高危个体,促进及时采取预防措施,如生活方式改变和医疗治疗。提高个人健康风险意识还可以鼓励积极的健康行为,最终改善公共健康并降低医疗成本。其次,这些模型可以提高保险公司的风险评估和产品开发能力。通过将预测建模整合到核保过程中,保险公司可以量化健康风险,相应调整保费,并提供健康管理激励。例如,参与健康项目的高风险个体可享受保费折扣,这既能降低保险公司风险,又能促进投保人的健康,从而实现更精确的风险管理和定制化的保险产品。

本研究有一些局限性。首先,由于CCVD仅基于国际疾病分类第10版(ICD-10)代码识别,并非所有心血管疾病患者都被识别出来。其次,在分析组定义阶段,排除了低龄和高龄组,这一点较为显著。这与接受体检患者的特征有关,并且在预防目的和预约体检访问方面存在一定的弱点。这导致了本研究中的偏差,因此在未来研究中,有必要通过定制数据库(如老年人群数据库)来补充我们的发现,以便控制年龄进行分析。

第三,本研究使用的数据在CCVD发生和未发生的案例之间存在类别不平衡。这种不平衡可能会影响模型的预测性能,特别是召回率,通过诸如过采样等技术可以预期性能的提升。然而,在本研究中,为了保持模型的可解释性和变量选择的一致性,未应用过采样。这是在解释结果时应考虑的一个局限性。

最后,尽管本研究考虑了数据中测量的各种混杂因素,但仍不能完全排除残留混杂的可能性。尽管存在这些局限性,但由于本研究使用最新数据比较了各种模型的预测,因此仍值得关注。

结论

本研究利用NHIS样本队列数据预测CCVD发病率,并比较不同健康状况下的模型性能。具有LASSO选择变量的逻辑回归模型显示出最佳的预测性能,尤其是在发病率和风险水平较高的简化组中。年龄、吸烟状态、中风家族史、性别、BMI和收缩压被确定为关键风险因素,强调了个性化风险评估和多样化预测模型在有效预防和管理CCVD方面的必要性。

本研究通过多方面优势为CCVD的预防和管理策略做出了贡献。首先,使用NHIS数据,研究开发了一个具有韩国人口代表性的稳健预测模型,增强了泛化能力。其次,通过将样本分为标准组和简化组,根据健康状况确定了关键风险因素。第三,应用惩罚线性模型,平衡了可解释性和预测性能,增强了实用性。综合来看,这些发现为支持CCVD的有效预防和管理策略提供了科学依据。


(全文结束)

大健康
大健康