预测性医疗保健中的人工智能:系统综述Artificial Intelligence in Predictive Healthcare: A Systematic Review

环球医讯 / AI与医疗健康来源:www.mdpi.com沙特阿拉伯 - 英语2025-10-03 02:16:21 - 阅读时长23分钟 - 11328字
本文系统综述了2021-2025年间人工智能在预测性医疗保健领域的应用研究,分析了22项相关研究,发现树状集成模型(如随机森林、XGBoost、LightGBM)在结构化临床数据中表现最佳,而深度学习架构(如CNN、LSTM)则适用于影像和时序任务。研究指出,数据隐私、临床工作流程整合、模型可解释性以及高质量代表性数据集的获取仍是主要挑战,未来研究应着重开发临床医生可理解信任的可解释模型,实施保护患者数据的隐私保护技术,并建立标准化评估框架以有效评估模型性能,从而推动人工智能从学术研究向实际临床应用转化。
预测性医疗保健机器学习深度学习患者护理疾病预测数据隐私模型可解释性临床工作流程整合医疗数据可解释模型
预测性医疗保健中的人工智能:系统综述

摘要

背景/目标: 如今,人工智能(AI)和机器学习(ML)显著增强了医疗保健领域的预测分析能力,实现了及时准确的预测,从而促成主动干预、个性化治疗计划,最终改善患者护理。随着医疗系统日益采用数据驱动方法,AI和数据分析的整合已引起广泛关注,这反映在越来越多的出版物中,突显了AI在临床环境中的创新应用。本综述综合了有关应用领域、常用模型、指标和挑战的最新证据。方法: 我们使用Web of Science和Google Scholar数据库进行了2021-2025年间的系统文献综述,涵盖了应用于疾病预测的各种AI和ML技术。结果: 22项研究符合标准。最常用的机器学习方法是基于树的集成模型(如随机森林、XGBoost、LightGBM)用于结构化临床数据,以及深度学习架构(如CNN、LSTM)用于影像和时序任务。评估最常依赖AUROC、F1分数、准确率和灵敏度。关键挑战仍在于数据隐私、与临床工作流程的整合、模型可解释性以及获取高质量代表性数据集的必要性。结论: 未来研究应侧重于开发临床医生可以理解和信任的可解释模型,实施强大的隐私保护技术以保护患者数据,并建立标准化评估框架以有效评估模型性能。

关键词:预测性医疗保健;机器学习;深度学习;重症监护室;脓毒症预测;集成方法;联邦学习

1. 引言

人工智能(AI)和机器学习(ML)正在彻底改变医疗保健领域的预测分析,提供了快速准确预测的潜力,从而实现及时干预并改善患者预后。AI技术的整合日益得益于电子健康记录(EHRs)、可穿戴传感器和先进医学影像所产生的大量数据。这些资源使ML模型能够发现复杂模式,促进早期诊断并改善患者管理。

例如,ML模型广泛应用于重症监护室(ICUs)内早期脓毒症检测和死亡率预测等关键应用。它们还在心脏病学中心力衰竭和心血管事件预测、肿瘤学中癌症风险分层、急诊科(EDs)中的分诊支持以及慢性疾病管理中糖尿病和高血压预测方面发挥着至关重要的作用。这些应用突显了ML在医疗保健中的灵活性,但也引发了对特定领域挑战和模型在不同临床环境中泛化能力有限的担忧。

尽管取得了进展,但在不同医疗领域适用的最有效ML方法方面仍缺乏综合理解。数据异质性和模型可解释性等挑战持续存在,使这些技术的部署变得复杂。ML模型的效能往往取决于医疗数据的性质;例如,集成方法如随机森林和XGBoost在结构化表格数据(如EHRs)方面表现出色,而神经网络(尤其是深度学习模型)则更擅长处理非结构化数据类型,包括医学影像和时序信号(如心率或脑电图读数)。

随着对这一研究领域的兴趣持续增长,已涌现出大量出版物和工具,许多研究人员和实践者积极为医疗保健分析的进步做出贡献。本系统综述的目的是综合近期研究的发现,对预测性医疗保健中各种ML应用进行分类。我们旨在探索医疗保健中最活跃使用预测模型的特定领域。此外,本综述将探讨这些医疗环境中最常用的ML算法。我们还将讨论当前在医疗保健中部署ML所面临的挑战和局限性。数据异质性、模型可解释性以及在不同患者群体中发现结果的泛化性等问题是必须考虑的关键障碍。最后,我们将探讨该领域的未来研究方向,确定克服现有障碍并增强ML整合到临床工作流程中的潜在途径。

本综述的其余部分组织如下:第2节介绍研究方法;第3节呈现系统文献综述(SLR)的结果和发现;第4节讨论该研究领域的挑战和趋势,并为未来研究提供见解;最后,第5节呈现结论。

2. 方法

本系统文献综述(SLR)旨在通过解决几个关键研究问题来调查预测性医疗保健分析中ML应用的现状:RQ1确定利用这些预测模型的医疗保健领域,RQ2探索最常用的机器学习算法,RQ3检查通常用于性能评估的评估指标,RQ4强调文献中报告的局限性和挑战,RQ5讨论该领域的未来方向和新兴趋势。本系统综述尚未注册。

在这些研究问题的指导下,本SLR全面概述了ML在预测性医疗保健分析中的当前状态。具体而言,它识别并分类了广泛使用的ML算法,绘制了它们在不同医疗领域的应用,并评估了它们的性能指标。SLR分析了文献中报告的局限性和挑战,并概述了可以增强ML在医疗系统中的开发和整合的新兴趋势和未来研究方向。

2.1. 选择标准和搜索策略

本综述基于2021年至2025年间发表的研究,收集自同行评审期刊和会议论文集。所有符合条件的研究在以下医疗领域之一中使用了预测机器学习(ML)模型:心脏病学、重症监护室(ICUs)、脓毒症、普通健康、肿瘤学、COVID-19、糖尿病和急诊科(EDs)。

为保持数据解释的一致性,排除了使用英语以外语言发表的研究。此外,我们排除了不属于指定医疗领域的ML研究、仅专注于描述性分析的研究、非同行评审文章(如博客和白皮书)以及重复或非原创作品。

文献搜索在两个主要学术数据库中进行:Web of Science和Google Scholar。搜索词经过精心选择,以涵盖机器学习和预测医疗保健的交叉点。使用的具体搜索词为:("machine learning" OR "ML")AND("predictive analytics" OR "prediction")AND("healthcare" OR "medical" OR "sepsis" OR "cardiology")。

对每个数据库的搜索从2021年初到2025年底进行。最初确定的研究数量为27项,然后进行资格筛选。在应用纳入和排除标准后,22项研究被认为适合纳入本SLR。

2.2. 研究评审过程和数据提取

严格的三轮评审过程确保了相关文章的全面和无偏见选择。整个研究选择工作流程使用系统综述和荟萃分析首选报告项目(PRISMA)流程图表示。

第一轮涉及通过预定义关键词在多个学术数据库中进行初始搜索,随后进行自动和手动去重以删除冗余条目。这一步确保每项研究只被考虑一次,防止冗余并保持综述的完整性。

在第二轮中,研究团队手动筛选剩余论文的标题和摘要。在此阶段排除了非同行评审文章、非主要研究项目(如社论和综述)、未采用ML方法的研究以及不在我们目标医疗领域的研究。这种仔细筛选隔离了直接相关且方法学严谨的研究。

第三轮涉及对所有入围文章的全面全文评审,确认其资格并评估其方法和发现的质量和相关性。

数据被系统地提取并报告在结构化的Excel电子表格中。对于每项选定研究,我们记录了出版年份、医疗领域、研究类型(如主要研究或综述)、使用的ML模型和算法、提取的特征类型、ML流程详情、使用的数据集、报告的评估指标、主要发现和贡献、报告的局限性以及建议的未来研究方向。

为确保可追溯性并便于未来参考,我们还将所有选定文章编目到图书馆管理工具(Zotero)中。重要的是,评审团队的每位成员独立提取数据以最大限度地提高准确性和最小化偏差;任何差异随后进行讨论并共同解决。经过此过程,22篇文章被纳入最终综述。

通过最终综合阶段的任何文章都根据预定义标准进行质量评估。该评估评估了每项研究与研究问题的相关性、方法和模型解释的清晰度、评估的完整性(指标、数据集和比较)、出版可信度(优先考虑同行评审期刊或可靠预印本)以及发现和报告局限性的透明度。此最终筛选确保仅将高质量和可靠的研究纳入我们的最终综述。

3. 结果

本SLR总结了通过PRISMA流程选定的22项研究。这些研究发表于2021年至2025年间,揭示了机器学习(ML)用于预测性医疗保健的采用、性能和局限性的明确模式。证据不仅展示了特定方法的趋同,也展示了由特定领域需求驱动的差异。图2展示了2021年至2025年间在医疗保健中使用ML和预测分析的文章数量。

2021年仅发表了一项研究,表明2022年之前发表的此类研究很少。出版量在2022年至2024年间略有增加,在2025年急剧增加,反映了AI驱动医疗保健预测研究和兴趣的快速增长。这种增长的驱动力包括新冠疫情(可能是医疗系统中最重要的驱动力之一)、电子健康记录(EHRs)的日益普及、边缘计算和实时患者数据,这些都提高了模型开发和测试的稳健性。AutoML框架等技术进步(如AutoPrognosis 2.0)证实了ML不仅在学术研究中,而且在实际临床使用中的日益增长的影响。

3.1. 医疗保健领域

重症监护室(ICU)和重症护理研究的主导地位突显了ML在具有大量结构化数据(如EHR、生命体征)且临床紧迫性需要准确预测的环境中最为有效。基于集成的模型(如RF、XGBoost)一致实现了强大的区分性能(AUROC > 0.9),但它们在医院间的有限外部泛化性表明,仅靠数据丰富并不能确保可移植性。相比之下,肿瘤学和心血管研究虽然数量较少,但突显了对影像和基因组数据应用深度学习的日益依赖,表明输入数据的复杂性比领域规模更大地决定了方法选择。慢性疾病管理(如糖尿病)严重依赖物联网-ML混合技术,反映了对纵向、真实世界监测而非急性事件检测的需求。COVID-19模型虽然创新,但显示出缺乏前瞻性验证,引发了对快速变化健康危机中稳健性的担忧。

ICU和重症护理成为研究最频繁的领域,不仅因为其临床重要性,还因为这些环境中可获得结构化、高频数据的丰富性。例如,研究[6]将实时EHR数据输入基于集成的模型以预测脓毒症发作。这些应用在时间敏感环境中至关重要,早期干预显著改善患者预后。然而,ML方法在机构间的低泛化性仍是该领域的主要限制。在急诊科(ED)中,ML方法在增强分诊和早期风险评估方面发挥着关键作用,反映了在高压环境中对快速决策的迫切需求。研究[5]利用生命体征和实验室结果进行深度学习预测分诊时的脓毒症。尽管ML在该领域突显了在高压决策环境中快速、实时分析的价值,但尚未解决数据延迟和工作流程集成等部署挑战。

在心血管领域,ML方法越来越多地应用于预测心脏事件、心力衰竭和风险评分,反映了对慢性、高死亡率疾病早期干预的迫切需求。例如,研究[11]结合结构化患者记录与超声心动图特征,支持早期心血管诊断。这些模型具有相当大的潜力,特别是在慢性疾病管理中,但需要高质量特征和持续监测的数据。

在肿瘤学中,针对生存估计和复发预测的ML应用反映了临床迫切需要个性化治疗路径并预测长期结果。研究[21]整合基因组数据与临床历史,预测乳腺癌复发。尽管ML模型已实现高预测性能,但难以解释且不能充分考虑癌症亚型的变异性。

在糖尿病和其他慢性疾病中,预测疾病发作和并发症的ML广泛应用反映了对这些在时间中悄然进展的状况进行主动管理的迫切需求。研究[2]提出了一个智能医疗框架,基于临床和行为数据的组合检测2型糖尿病风险。这些模型对人群层面筛查有价值,但不太适合变量行为数据和长期监测。

在COVID-19大流行期间,预测医院入院和严重程度评估的ML模型反映了在危机条件下对可扩展决策支持工具的迫切需求。研究[17]使用结构化EHR输入针对儿科COVID-19入院。这些模型可以适应危机设置,但通常缺乏前瞻性验证。

在普通医疗和初级护理中,风险评分和决策支持的ML应用说明了向预防性医学的转变,早期识别高风险患者可以减少长期医疗负担。将此类工具嵌入门诊环境突显了它们将预测分析民主化到专业医院之外的潜力。研究[18]将预测工具嵌入初级护理工作流程中,标记早期恶化。尽管此类工具增强了预防性护理,但不容易集成到遗留医疗系统中。

对于急性肾损伤和医院住院时间等其他特定状况,ML应用展示了预测模型解决各种临床挑战的多功能性。例如,研究[7]使用梯度提升估计创伤患者的出院时间。这些应用展示了ML的多功能性,但需要特定领域的数据和紧密的临床对齐。

3.2. 应用数据集

在依赖公共基准数据集(如MIMIC、PhysioNet)与机构特定数据之间出现了明显的二分法。基准促进了可比性,但有将研究过度拟合到狭义定义人群的风险。相反,本地数据集提高了临床相关性,但以泛化性为代价。这种权衡表明,预测性医疗保健的进步需要混合验证策略——基准用于可重复性,多中心数据集用于人群多样性。表2列出了基准数据集和引用它们的研究。在基准公共数据集上训练可以提高ML方法的可重复性和跨研究可比性。相比之下,在区域或医院特定数据集上训练牺牲泛化性以提高本地相关性。

3.3. 特征提取方法

特征提取是ML流程中的关键步骤,特别是在需要将原始数据转换为有意义输入的医疗保健中。表3列出了所审查研究中使用的特征提取方法,并简要描述如下。

手动统计聚合(例如平均值、标准差、最小值和最大值)将生命体征和实验室结果等时序数据转换为固定长度的数字摘要,简化传统ML模型的输入数据。递归特征消除(RFE)迭代移除对模型性能贡献小的特征。RFE减少了过拟合并提高了模型的效率,特别是基于树的分类器。最小绝对收缩和选择算子(LASSO)将较少预测特征的系数缩小到零,同时执行特征选择和正则化。LASSO有效处理高维数据集。Boruta算法是一种基于随机森林的包装方法,旨在识别所有相关特征而非最小子集。该算法增强了模型的可解释性并保留了其临床价值。主成分分析(PCA)是一种降维方法,将特征转换为新的不相关组件。PCA有效压缩图像和生理数据。自编码器是深度学习模型,学习复杂输入(如ECG信号或医学图像)中的潜在(隐藏)特征,实现异常检测和无监督学习。

SHapley加性解释(SHAP)通过量化每个特征的贡献来解释模型预测。SHAP提供临床透明度,对于深度神经网络等黑盒模型尤其重要。过滤方法(例如信息增益、基尼指数)独立于所用ML模型评估特征。快速且可扩展,过滤方法适用于早期降维。专家/临床选择的特征因其医学相关性或符合临床指南(例如序贯器官衰竭评估评分、合并症)而被选择,确保包含经过医学验证的指标。特征对齐迁移学习(FATL)协调多个数据集中的特征,允许稳健的模型训练和泛化,即使特征定义在不同数据集中有所不同。

如表3所示,所审查的研究展示了方法学的演变:统计聚合和过滤方法在结构化EHR环境中仍然常见,而自编码器、SHAP和PCA越来越多地出现在影像、基因组和时序任务中。重要的是,SHAP的使用表明,可解释性不是可选的,而是临床信任的核心。特征提取的异质性突显了持续的紧张关系:最大化准确性的方法往往降低透明度,而可解释的方法可能会限制性能。

3.4. 机器学习模型

在所审查的研究中确定了17种ML模型。表4列出了这些模型并总结如下。

随机森林(RF)是一种广泛使用的监督学习方法,在训练阶段构建多个决策树并将它们的输出组合以提高整体预测准确性。在ICU患者预后分析中,RF分类器实现了强大的预测能力和可靠性,ROC AUC为0.94。

逻辑回归是一种统计模型,估计二元结果(如是或否)的概率。在基于土耳其统计局微观数据的医疗保健服务需求预测研究中,逻辑回归在几种ML方法中产生了最高的AUC分数(0.59),证明了逻辑回归在此背景下的有效性。

支持向量机(SVM)是另一种监督学习算法,通过最大化它们之间的边距来寻找两个类别之间的最佳超平面。SVM依赖于称为支持向量的训练数据子集。SVM已成功识别出基于人口统计和健康特征的韩国二手烟高风险抑郁人群。

极端梯度提升(XGBoost)是一种建立在梯度提升框架上的强大监督学习算法。XGBoost以其效率和在大数据集上的高性能而闻名。XGBoost在上述土耳其医疗保健研究中被评为最准确的预测模型之一。

神经网络是突出的监督深度学习模型,特别适合高维和复杂数据集。神经网络已有效检测医学影像数据中的细微心脏异常。

决策树是简单而有效的监督模型,根据特征值递归分割数据。它们的结构类似于具有内部节点表示决策规则的树。基于人口统计变量,决策树准确预测了埃塞俄比亚五岁以下儿童急性呼吸道感染的风险。

梯度提升是一种用于分类和回归任务的提升技术,通过最小化预测误差顺序构建模型。该方法被采用在一项旨在改善难民人群中精神健康预测的斯里兰卡研究中。梯度提升在敏感健康领域实现了更高的准确性。

朴素贝叶斯分类器是概率监督算法,当特征条件独立时表现良好。伯努利朴素贝叶斯和梯度提升在临床结果(死亡率和住院时间)研究中均取得了显著表现,在死亡率预测中特别成功。

k-最近邻(k-NN)是一种简单而有效的监督算法,基于其最近邻居中的多数类别为数据点分配标签。k-NN已成功检测并分类基于印度人口统计和健康数据的糖尿病。

多层感知器(MLP)是一种前馈人工神经网络,包含输入、隐藏和输出层。MLP在基于高维临床数据集的脓毒症结果预测中有效平衡了灵敏度和准确性表现。

轻量梯度提升机(LightGBM)是一种优化的梯度提升算法,通过叶向树生长方法提高梯度提升的准确性和训练速度。LightGBM已分析患者年龄、病史、实验室结果和其他数据以进行疾病风险预测。

卷积神经网络(CNNs)是为处理空间数据而设计的深度学习模型类别。这些模型已有效处理医学影像任务,如超声心动图(ECG)图像分析用于心脏评估。循环神经网络(RNNs)处理序列数据并捕获时间依赖性,可以预测心律失常和高血压等事件,基于心率和血压等生理时序数据。长短期记忆(LSTM)网络是RNN变体,保持时间步长之间的长期依赖性。LSTMs通过ECG信号中的序列模式识别准确检测心律失常。深度信念网络(DBNs)是深度红狐信念预测系统(DRFBPS)的基础,该系统从复杂数据集中提取分层特征。例如,DRFBPS可以根据年龄、血压和胆固醇等各种指标预测心脏病。

自编码器是用于降维和特征提取任务的无监督学习模型。当集成到医疗保健分析的预测模型中时,自编码器通过隔离高维数据集中的最相关特征来增强性能。

集成方法结合多个学习模型以提高预测准确性和稳健性。参考文献[22]的作者基于UK Biobank数据构建了糖尿病风险预测指数,发现集成方法在多个测试组上的精度和泛化性方面优于其单个组成部分模型。

如表4所示,基于树的集成方法(RF、XGBoost、LightGBM)在结构化数据环境中占主导地位,反映了它们的稳健性和可扩展性。然而,它们与ICU数据集的频繁配对提出了一个问题:它们的成功是模型驱动的还是仅仅是数据驱动的。深度学习模型(CNN、RNN、LSTM)在需要从非结构化信号(如影像、ECG)中识别模式的领域中表现最佳,表明数据模态而非疾病类型是模型选择的决定性因素。值得注意的是,集成组合通常优于单个模型,强化了这样一个观点:没有单一算法在所有医疗领域中都是普遍最优的。

如表5所示,大多数审查的研究集中在ICU和重症护理中,其中XGBoost和RF等集成和基于树的模型在脓毒症和死亡率方面一致实现了强大的预测性能,但在人群间泛化方面遇到困难。急诊科(ED)应用在分诊和生命体征数据上应用深度学习模型,在早期风险分层中实现了有希望的灵敏度。相比之下,心血管疾病和肿瘤学代表性不足,但这些研究展示了基于影像和基因组的深度学习框架的附加值。慢性疾病和COVID-19依赖物联网增强的ML管道和DL分类器,但许多缺乏前瞻性验证。最后,普通医疗和其他状况(如急性肾损伤、住院时间预测)展示了风险评分和梯度提升的有效使用,但突显了电子健康记录集成和外部可重复性的持续挑战。

3.5. 评估指标

性能评估与临床优先级密切相关。ICU和ED研究优先考虑灵敏度和F1分数,因为在这些环境中遗漏关键病例将产生严重后果,而肿瘤学和生存分析则倾向于C指数和Brier分数,反映了疾病进展的纵向性质。虽然AUROC仍然是报告最多的指标,但其主导地位有掩盖临床相关权衡的风险,例如低特异性导致的警报疲劳。

AutoML(AutoPrognosis 2.0)在诊断建模中也提供了有希望的结果,手动调整最少。性能指标并非任意选择,而是必须满足风险敏感环境中核心临床需求。例如,灵敏度和特异性在ICU和急诊环境中至关重要,因为遗漏高风险患者(假阴性)或产生不必要的警报(假阳性)可能产生严重后果。

AUC报告的高频率表明捕捉整体区分能力的重要性,特别是在不平衡数据集上。罕见事件或恶化往往使用F1分数和精确率-召回指标进行评估,而生存预测论文则适当地使用C指数和综合Brier分数等时间到事件指标。这种对齐表明,医疗保健ML模型的评估不仅是技术性的,而是由临床背景、风险承受能力和决策优先级驱动的。大多数研究依赖于AUC和F1分数等常见性能指标。

最常报告的指标包括AUC/AUROC/ROC、F1分数、准确率和召回率/灵敏度。每种指标出现在超过10项研究中,表明它们通常被认为是医疗保健中ML模型的标准和可靠性能指标,特别是在脓毒症等分类任务中。F1分数尤为重要,因为它平衡了精确率和召回率,这在错误预测可能导致重大临床风险的医疗保健场景中至关重要。

一些研究使用了精确率(PPV)、特异性和负预测值(NPV)指标,这些指标在诊断应用或最小化临床环境中假警报时通常至关重要。较少研究使用高级指标(如Brier分数、C指数、决策曲线分析、综合AUC和综合Brier分数),这些指标通常用于概率模型或时间到事件(生存)分析。

使用多指标评估的研究(例如[20])产生了最细致的见解,表明未来工作应采用领域自适应评估框架,而不是依赖通用指标。

4. 讨论

在本节中,我们将探讨与在医疗保健中实施ML模型相关的挑战,并概述研究的潜在未来方向。图3展示了这些挑战与未来研究方向的映射。

4.1. 挑战和问题

为了为在预测性医疗保健分析中工作的研究人员和实践者提供全面视角,我们将观察到的挑战分为四个关键关注点:数据和泛化性、算法和可解释性、临床整合以及隐私和监管问题。这些关注点中的每一个都限制了基于ML的预测模型的广泛临床转化。

4.1.1. 数据和泛化性

大多数审查的研究指出缺乏外部泛化性是一个主要问题。许多模型使用回顾性、单中心数据集(如MIMIC和PhysioNet)开发,这些数据集一致但缺乏多样化的患者人口统计、临床方案和区域医疗实践。基于非多样化数据集的模型在应用于不同机构或人群时通常会失去性能。此外,数据不平衡——特别是在预测罕见事件(如早期脓毒症或ICU死亡率)时——限制了模型的训练和评估。其他常见问题是缺失值、异构数据格式和不一致的预处理协议。这些问题严重降低了模型的稳健性,并增加了研究间比较的难度。

4.1.2. 算法和可解释性

尽管深度神经网络和集成架构等复杂模型提供卓越性能,但它们的黑盒性质仍然是临床采用的关键障碍。许多临床医生不愿意使用不可解释的模型,特别是当结果影响高风险决策时。SHapley加性解释(SHAP)和局部可解释模型无关解释(LIME)等提高模型可解释性的技术仍未得到充分利用,通常无法实时解释模型行为。此外,特征工程方法在研究中差异很大,从手动统计聚合到自编码器和领域指导选择,增加了另一层变异性。

4.1.3. 临床整合和实际应用

尽管回顾性表现强劲,但在审查的研究中很少尝试前瞻性验证和实时部署。ML模型很少在运营医院系统中测试或嵌入EHRs中。此外,大多数流程中缺少临床医生参与的框架,减少了用户反馈和信任建立的机会。没有咨询医疗保健专业人员构建的模型往往选择不相关的特征或产生与实际临床优先级不符的输出。这些差距突显了ML开发者和临床最终用户之间缺乏合作。

4.1.4. 隐私、伦理和监管问题

鉴于患者数据的敏感性,健康保险可移植性和责任法案(HIPAA)或通用数据保护条例(GDPR)下的隐私合规性构成了主要挑战。联邦学习已被探索为一种隐私保护方法,但仅在少数研究中完全实施。此外,很少有研究解决了医疗保健中自动决策相关的伦理考虑,包括算法偏见、预测透明度和对错误预测的责任。如果没有适当的治理,ML模型可能会强化现有的健康差异或引入新的患者护理风险。

4.2. 未来研究方向

为了充分挖掘ML在预测性医疗保健分析中的潜力,未来研究方向必须在模型、算法、实验和应用层面应对已识别的挑战。集体解决这些维度将加速ML模型的临床转化,并提高其在真实世界医疗环境中的可用性、安全性和公平性。

4.2.1. 模型层面

许多ML模型提供强大的预测能力,但其有限的可解释性仍然是临床实践中采用的关键障碍。通过SHAP和基于注意力的可视化等方法增强模型的可解释性是重要的未来研究方向。开发专为临床决策定制的内在可解释模型对于培养临床医生信任和监管接受至关重要。此外,实施临床医生参与的设计可能改善模型洞察在实时决策支持系统中的整合。

4.2.2. 算法层面

在保持模型性能的同时确保患者数据隐私是一个日益增长的问题,特别是在跨医疗机构的情况下。联邦学习是一种有前途的解决方案,它允许在不直接共享数据的情况下进行分散训练。应调查AutoPrognosis等自动ML平台,用于自动化模型选择、超参数调整和管道优化,从而为非技术利益相关者实现ML的民主化。这些平台可以显著减少开发时间并提高模型的可重复性。

4.2.3. 实验研究层面

当前研究主要限于孤立环境中的回顾性或短期分析。应在现实世界约束下的前瞻性、多机构验证研究中测试ML模型。使用迁移学习和领域适应技术的模型将在不同人群和临床环境中保持稳健性能。此外,建立基准数据集和标准化协议对于有意义的研究间比较和增强可重复性很重要。

4.2.4. 应用层面

ML模型在EHRs和现有临床工作流程中的整合不足。未来工作应侧重于将ML工具无缝嵌入医院信息系统,确保其可用性,同时对临床常规的干扰最小。克服法律、伦理和操作障碍(如责任、用户培训和警报疲劳)对于ML在临床环境中的持续采用也至关重要。最后,研究人员应纳入实时验证和监控机制,评估实时环境中持续的模型性能和安全性。

5. 结论

本综述旨在评估机器学习在预测性医疗保健中的作用,突出进展和现有挑战。表7将每个研究问题映射到解决的部分,并总结了所审查研究的主要发现。

研究结果表明,虽然集成方法(如随机森林、XGBoost和LightGBM)和深度学习架构展示了显著的技术进步,但它们在重症监护室(ICU)设置中的主要应用揭示了对高急性、数据丰富环境的偏见。这种关注限制了更广泛的临床应用,特别是肿瘤学、慢性疾病和初级护理,尽管其重要性,这些领域仍未得到充分探索。

此外,虽然我们的系统文献综述确定了22项关于医疗保健中预测机器学习的相关研究,但我们承认这个数字可能显得有限。我们严格的选择标准对于确保研究质量是必要的,但它们也可能通过排除非英语出版物和来自非洲、拉丁美洲和东欧等代表性不足地区的研究而引入潜在偏见。这些地理差异可能影响我们发现的泛化性,突显了未来研究需要包括来自不同地区的更广泛研究,以创建对医疗保健中预测建模的更全面理解。

综述还确定了研究中可重复性和多样性的权衡。虽然MIMIC和PhysioNet等基准数据集有助于研究间的比较,但它们的过度使用可能会延续系统性偏见。相比之下,本地医院数据集提供了情境有效性,但往往缺乏泛化性。因此,平衡这些方面的混合验证策略对于开发既稳健又具有临床适用性的模型至关重要。

此外,技术复杂性不是进步的主要障碍。虽然可解释性框架(如SHAP和LIME)、AutoML平台和协作学习方法可用,但它们经常未被充分利用。关键挑战在于需要前瞻性验证、纳入临床医生反馈的设计以及确保患者安全和伦理责任的框架。

总之,推进预测性医疗保健需要从仅仅开发高性能算法转向将可信、透明和可泛化的系统整合到真实世界的临床工作流程中。通过解决这些系统性挑战并认识到更广泛研究包容性的需要,机器学习可以从学术研究发展为提供公平和可扩展的医疗交付改进。

【全文结束】

大健康
大健康