心血管疾病(CVD)仍是全球致死致残的首要原因之一,亟需早期诊断以改善临床结果。本研究提出基于CatBoost算法的高级预测模型,利用医院记录作为主要数据源对心血管疾病各阶段进行分类。该模型结合特征选择、严格验证流程和数据增强技术,成功解决了高维医疗数据带来的挑战。在多种机器学习算法中,经过调优的CatBoost模型表现出最高性能,自动化特征选择并实现早期心脏病检测,达到99%的F1分数和99.02%的整体准确率。
研究背景
心血管疾病包含影响心脏和血管的一组疾病,主要由动脉粥样硬化引发。这些疾病通常进展隐匿,早期症状不明显,使得早期检测成为有效干预的关键。研究显示,通过识别和利用现有预测模型的最佳参数设置,诊断准确性得到显著提升。本研究的核心创新在于通过及时精准的预测,为医疗决策提供重要支持。
方法学
研究采用三阶段模型:预处理、训练和分类。预处理阶段将分类变量转换为数值变量,选择重要值大于0.1的特征,通过非参数树方法解决共线性问题。训练过程采用80:20数据划分,使用K折交叉验证提升泛化能力。测试的机器学习算法包括Extra Tree、随机森林、Ada Boost、梯度提升和CatBoost。
数据分析
数据集包含918个病例的12个关键预测变量,其中508例确诊心血管疾病,410例健康对照。男性占比90.2%(410/458),女性占比9.8%(50/410)。特征分析显示,无症状胸痛(ASY)类别占比77.2%,运动性心绞痛与心血管疾病显著相关(85%患者确诊)。
创新贡献
- 模型开发:采用80/20划分的高效机器学习模型
- 特征选择:通过粗糙集理论优化特征集
- 早期检测:实现隐性症状阶段筛查
- 数据利用:基于综合心血管疾病数据集训练
- 临床应用:提供定量与定性结合的决策支持
实验结果
在联想i5-10210U处理器(1.60GHz)和16GB内存环境中,CatBoost模型表现最优:准确率99.02%、精确度99.04%、召回率99.2%、F1分数0.992。ROC曲线分析显示梯度提升和CatBoost的AUC均达0.95,显著优于随机森林(0.94)和AdaBoost(0.90)。
讨论与展望
尽管机器学习在医疗领域面临数据孤岛等挑战,本研究通过优化超参数和特征选择,将诊断准确性提升至新高度。未来研究将重点验证模型在异质人群中的适用性,扩展可调节风险因素,并引入ANOVA等统计测试评估模型效能。研究团队来自巴基斯坦Sialkot政府女子大学和沙特努拉·宾特·阿卜杜勒拉赫曼大学,已获该校"纳菲亚"计划(NP-45-090)资助。
【全文结束】