基于机器学习的灾难性医疗支出分类:韩国低收入家庭的横断面研究Machine learning based classification of catastrophic health ...

环球医讯 / AI与医疗健康来源:bmchealthservres.biomedcentral.com韩国 - 英语2025-08-13 16:12:07 - 阅读时长6分钟 - 2721字
本研究通过机器学习方法对韩国低收入家庭的灾难性医疗支出进行分类,发现经济活动、慢性疾病和年龄是主要风险因素。研究采用韩国健康调查面板2019年数据,利用AdaBoost模型实现了89.8%的曲线下面积(AUROC),表明失业、慢性疾病患者和65岁以上人群面临最高风险。结论强调早期识别风险群体对制定综合支持计划的重要性。
灾难性医疗支出低收入家庭韩国机器学习健康慢性疾病年龄经济活动医疗保障预防管理
基于机器学习的灾难性医疗支出分类:韩国低收入家庭的横断面研究

摘要

背景

尽管韩国实施了国家健康保险制度,低收入家庭的医疗保障问题仍受关注。本研究旨在通过机器学习数据挖掘技术,对低收入家庭可能面临的灾难性医疗支出(CHE)进行分类。

方法

研究使用2019年韩国健康调查面板数据,共筛选4031名低收入者。采用随机森林、梯度提升、决策树、岭回归、神经网络和AdaBoost六种机器学习算法构建分类模型。通过十折交叉验证保证分析可靠性,评估指标包括ROC曲线下面积(AUROC)、准确率、精确率、召回率和F1分数。

结果

低收入家庭灾难性医疗支出发生率为26.2%。AdaBoost模型表现最佳,AUROC达89.8%,准确率83.1%,精确率82.4%,召回率83.1%,F1分数82.1%。研究发现经济活动状况、慢性疾病和年龄是显著风险因素,65岁以上、慢性疾病患者和失业者风险最高。

结论

提前识别面临灾难性医疗支出风险的低收入家庭至关重要。本研究为制定更有效的预防和管理综合支持计划提供了基础数据。

背景

灾难性医疗支出(CHE)是全球普遍存在的现象。虽然韩国通过国家健康保险制度为全体公民提供医疗保障,但低收入家庭的医疗安全问题仍持续存在。测量家庭医疗费用的经济损失程度,分析灾难性医疗支出(CHE)具有重要意义——当医疗支出占家庭支付能力的比例超过特定阈值时即构成灾难性支出。

既往研究显示,灾难性医疗支出发生时,家庭经济困难和贫困风险会显著增加。由于医疗服务需求与收入弹性相关,低收入家庭往往面临更高的医疗费用负担。尽管公共医疗支出增加和自付比例降低有助于降低灾难性支出风险,但韩国面临非覆盖项目多、共付比例高等问题。OECD数据显示,韩国2020-2022年个人自付医疗费用排名分别为第2、第3和第4位。

多种因素共同导致灾难性医疗支出,年龄、家庭成员数量、经济活动状况、慢性疾病和健康意识等均产生影响。低收入水平、较差健康意识、低经济活动、多慢性病和高龄人群更易发生灾难性支出。马来西亚研究显示,女性当家、农村家庭和成员较少的家庭风险更高。此外,教育水平低、抑郁经历和医疗不满也会增加风险。

本研究旨在通过数据挖掘技术对低收入家庭的灾难性医疗支出进行分类,提前检测风险因素,防止家庭陷入贫困。数据挖掘在结果分类准确性方面优于其他方法,广泛应用于疾病诊断和分类。本研究将为韩国制定低收入家庭灾难性医疗支出预防管理综合项目提供基础数据。

方法

数据来源与研究人群

研究使用韩国健康调查面板(KHPS)数据,该全国性调查提供医疗使用模式、费用及影响因素的深度信息。最终分析纳入2019年数据中18岁以上成人,筛选标准:排除曾接受住院、门诊或急诊服务者,收入超过2019年标准中位收入100%者。标准中位收入指全体公民按收入排序后的中位值。最终纳入4031名低收入参与者。

数据可用性与伦理声明

KHPS数据可公开获取(需申请)。本研究经韩国大学伦理审查委员会批准(IRB No. 2023-0043)。

变量设置

目标变量

采用Wagstaff & van Doorslaer方法定义灾难性医疗支出:自付费用占家庭总收入比例超过10%。阈值选择依据多研究采用的10%基准。

输入变量

包括性别(男0/女1)、年龄(18-64岁0/65岁+1)、教育水平(小学0-大专及以上3)、家庭规模(1人0-3人+2)、婚姻状况(已婚0/未婚1)、就业状况(就业0/失业1)、补贴接收情况(接收0/未接收1)、商业保险(参保0/未参保1)、残疾、慢性病、未满足医疗需求和抑郁状况(存在0/不存在1)等。

统计分析

采用频率分析、卡方检验、Fisher检验和机器学习技术。使用六种算法构建分类模型,通过十折交叉验证确保可靠性。特征选择采用Wrapper逐步后退消去法确定重要因素,模型评估指标包括AUROC、准确率、精确率、召回率和F1分数。

结果

基本人口特征

研究样本中男性占比68.8%(2775人),65岁以上者占69.6%(2806人)。教育水平以小学毕业(32.8%)和高中学历(29.2%)为主。46.9%为二人家庭(1892人),61.3%已婚(2471人),60.1%就业(2421人)。89.6%接收补贴(3610人),58.3%参保商业保险(2350人)。88.7%无残疾(3574人),76.9%患慢性病(3100人),87.0%无未满足医疗需求(3505人)。约91%无抑郁,平均健康意识3.1分(SD 0.87)。除婚姻状况外,其他变量在灾难性支出组间差异显著(p<0.005)。

特征重要性

经济活动(最高)、慢性病和年龄是预测灾难性医疗支出的关键因素。其次为婚姻状况和家庭规模。健康意识、残疾和未满足医疗需求重要性较低。

分类模型性能

AdaBoost模型表现最佳(AUROC 89.8%),显著优于其他算法:随机森林84.9%、岭回归68.7%、梯度提升73.5%、决策树84.5%、神经网络78.5%。使用全部13个特征时,AdaBoost准确率达83.1%,F1分数82.1%。敏感性分析验证结果的稳健性。

讨论

本研究通过机器学习技术构建了准确的灾难性医疗支出分类模型,确认经济活动、慢性病和年龄是主要风险因素。26.2%的低收入家庭遭遇灾难性医疗支出,远高于普通人群的3.9%(阈值40%)。研究显示,老年人、低教育水平者、慢性病患者和补贴接受者风险最高。

AdaBoost模型(AUROC 89.8%)在预测灾难性支出方面表现优于其他方法,与既往预测员工晋升(95.3%)和心脏病预测研究结果一致。经济活动、慢性病和年龄作为关键风险因素的发现,与韩国残疾人群体医疗安全研究结果相符。比较城乡差异研究显示就业状况是共同影响因素。

尽管商业保险非本研究显著因素,但既往研究证实其可降低医疗破产风险。建议系统筛查和管理风险群体,通过社区两级筛查(识别风险群体→深度咨询支持)和慢性病管理计划实现长期预防。韩国现有高血压糖尿病初级医疗管理政策,建议扩大覆盖范围。

研究局限包括:横断面设计无法确定因果关系;未考虑低收入家庭内部差异;模型推广性受限;阈值设置影响风险组识别(选择10%更敏感);自付医疗经验的不均衡可能影响AUROC。尽管如此,本研究首次在韩国应用机器学习预测低收入家庭灾难性支出,具有重要实践意义。

结论

本研究首次在韩国采用机器学习技术构建低收入家庭灾难性医疗支出预测模型。结果证实AdaBoost算法最优(AUROC 89.8%),经济活动、慢性病和年龄为关键预测因素。建议关注不同性别和年龄组的差异,制定针对性干预措施。

【全文结束】

大健康
大健康