随着人工智能(AI)领域的发展,将其融入医疗保健系统为改善医疗服务、促进创新和发现以及最终提升患者护理和治疗效果带来了显著机遇。然而,与准备充分的高收入国家相比,中低收入国家(LMIC)在实施医疗保健AI时面临着独特的挑战。
LMIC医院通常面临资源限制,如资金不足、基础设施陈旧和技术专长短缺。此外,AI算法通常依赖大量高质量的数据集进行训练和验证,但LMIC医院获取全面数字化医疗数据的途径有限。这些资源限制对医疗保健AI系统的采用和实施构成了重大挑战。
机器学习(ML)的泛化是指模型将从训练数据中学到的知识准确应用于新的、未见过的数据的能力。在临床环境中,常见的泛化类型包括时间泛化(在模型开发的中心前瞻性应用)和外部/地理泛化(在独立中心应用模型)。本研究重点关注外部/地理泛化。
实现广泛的泛化虽然理想,但由于人口变异性、医疗保健差异、临床实践差异以及数据可用性和互操作性的差异等原因,往往难以实现。为了在LMIC中实现AI开发的最佳整合和有效性,必须采用专门针对LMIC独特背景的方法和策略。
本研究旨在评估将在高收入国家(HIC)环境中开发的模型应用于中低收入国家(LMIC)环境(特别是越南)的可行性。研究重点是将最初在英国开发的模型应用于越南的医院,并展示和讨论了旨在提高模型性能的实用方法,强调了根据LMIC独特的医疗保健系统定制解决方案的关键重要性。
研究结果表明,在数据提取期间,英国四个站点的COVID-19患病率在4.27%至12.2%之间。越南站点的患病率明显更高。在使用简化特征集进行训练时,与之前的研究相比,模型性能下降。使用综合特征集时,模型在英国测试集上表现出高达10%的改进,在越南的HTD和NHTD中心也有所改进。在转移学习方面,将在英国开发的模型应用于越南的本地环境时,观察到两个中心的分类性能均有所提高。
讨论部分指出,在LMIC环境(越南医院)中使用未定制的HIC模型(英国模型)导致预测性能最低,AUROC / AUPRC以及敏感性/特异性的变异性最高。神经网络模型在应用于越南数据集时表现出优越性能,但存在过拟合倾向。转移学习在COVID-19诊断和在英国和越南医院站点的泛化方面表现最佳,开发特定地点的模型(在本地环境中训练的数据)也表现出色。使用GATS时,在转移学习和外部验证期间,HTD和NHTD的模型表现进一步改善,但仍需考虑数据生成过程中引入的潜在偏差。越南数据集中存在异常值,可能影响模型性能。HTD和NHTD是传染病专科医院,在疫情期间专门接收COVID-19重症患者,这可能导致血检结果波动较大,模型在准确区分COVID-19方面面临挑战,特异性较低。预测模型由于性能的内在变异性无法完全验证,未来研究应关注前瞻性分析和模型更新。在LMIC中采用AI面临基础设施和能力建设等诸多挑战,需要谨慎和因地制宜的方法来应对。
研究方法部分介绍了数据来源、特征选择、预处理、模型架构、指标和训练大纲等内容。数据可用性方面,OUH的数据可通过特定途径获取,UHB、PUH和BH的数据需直接向医院申请,HTD和NHTD的数据通过特定管理访问政策获取。代码可在指定网址获取。


