预防医院AI模型数据偏移的策略Strategies to prevent AI model data shifts in hospitals

环球医讯 / AI与医疗健康来源:healthcare-in-europe.com加拿大 - 英语2025-06-10 15:00:00 - 阅读时长3分钟 - 1357字
约克大学的一项新研究发现,主动、持续和迁移学习策略对于减轻AI模型中的数据偏移及其后续危害至关重要。研究人员通过构建和评估一个早期预警系统来预测住院患者死亡风险,并在多伦多地区的七家大型医院中进行了测试,结果表明这些策略可以有效检测和缓解数据偏移。
医院AI模型数据偏移健康临床诊断患者多样性迁移学习持续学习模型性能数据监测临床AI部署
预防医院AI模型数据偏移的策略

约克大学的一项新研究发现,主动、持续和迁移学习策略对于减轻AI模型中的数据偏移及其后续危害至关重要。这项研究发表在《JAMA Network Open》杂志上。

为了确定数据偏移的影响,研究团队构建并评估了一个早期预警系统,以预测住院患者的死亡风险,并增强对多伦多地区七家大型医院患者的分诊。该研究使用了加拿大最大的医院数据共享网络GEMINI,评估了数据偏移和偏见对临床诊断、人口统计学、性别、年龄、医院类型、患者转院来源(如急性护理机构或养老院)以及入院时间的影响。研究包括了143,049次患者就诊记录,如实验室结果、输血、影像报告和行政特征。

“随着医院中越来越多地使用AI来预测从死亡率、住院时长到败血症和疾病诊断等各种情况,确保它们按预期工作且不会造成伤害的需求变得越来越大,”约克大学健康政策与管理学院助理教授Elham Dolatabadi说。她也是Connected Minds的成员和Vector研究所的研究员。“然而,由于数据随时间变化导致系统不可靠,建立可靠和稳健的机器学习模型一直很困难。”

她补充说,用于训练医院和其他医疗环境中临床AI模型的数据需要准确反映患者的多样性、疾病和医疗实践。如果没有这一点,模型可能会产生不相关或有害的预测,甚至不准确的诊断。患者亚群体的差异、人员配备、资源以及政策或行为的意外变化、不同医院之间的医疗实践差异或突如其来的疫情都可能导致这些潜在的数据偏移。“我们发现,在模型训练和实际应用之间存在显著的数据偏移,包括人口统计学、医院类型、入院来源和关键实验室检测的变化,”第一作者、大学卫生网络的AI科学家Vallijah Subasri说。“我们还发现,当将社区医院患者就诊数据训练的模型转移到学术医院时,会出现有害的数据偏移,但反过来则不会。”

为了减轻这些潜在有害的数据偏移,研究人员采用了迁移学习策略,使模型能够存储从一个领域学到的知识并将其应用于另一个相关领域,并采用持续学习策略,即AI模型通过连续的数据流进行更新,以响应漂移触发的警报。

“从潜力到实践有一条切实可行的路径,弥合了AI在健康领域的潜力与在现实世界临床环境中部署和维持它的现实之间的差距,”Dolatabadi说。

尽管机器学习模型通常在批准使用后保持锁定状态,但研究人员发现,针对特定医院类型的利用迁移学习的模型表现优于使用所有可用医院数据的模型。使用漂移触发的持续学习有助于防止因新冠疫情而产生的有害数据偏移,并随着时间的推移提高了模型性能。

根据其训练数据的不同,AI模型也可能具有某些偏见,导致某些患者群体出现不公平或歧视性的结果。“我们展示了如何检测这些数据偏移,评估它们是否对AI模型性能产生负面影响,并提出缓解其影响的策略。我们展示了一条从潜力到实践的切实可行的路径,弥合了AI在健康领域的潜力与在现实世界临床环境中部署和维持它的现实之间的差距,”Dolatabadi说。

这项研究是临床AI模型部署的关键一步,因为它提供了确保这些模型在现实世界环境中安全和有效的策略和工作流程。“这些发现表明,一种主动的、标签无关的监控管道结合迁移学习和持续学习可以检测并缓解多伦多普通内科人群中的有害数据偏移,确保临床AI的稳健和公平部署,”Subasri说。


(全文结束)

大健康
大健康