摘要
人工智能(AI)正在临床实践中创造价值,但偏见可能加剧医疗差异。本综述探讨医疗AI中的偏见起源、缓解策略及利益相关者的责任,强调需在整个AI模型生命周期中系统识别偏见并采取缓解措施,从模型概念设计到部署和纵向监测。
引言
截至2024年5月13日,美国食品药品监督管理局(FDA)数据显示,AI医疗设备批准数量激增至882项,其中76%为放射学设备。这些进展体现了AI在医疗影像分析、可穿戴设备健康监测和电子病历预测等方面的应用潜力。然而,深度学习模型的"黑箱"特性限制了人类监督和生物合理性评估。
欧盟委员会、FDA、世卫组织等监管机构已加强制定严格框架,要求AI模型遵守公平性、可解释性原则。本文通过系统文献综述(1993-2024年94篇核心文献),揭示医疗AI偏见的三种主要类型及缓解策略:
- 人类偏见
- 隐性偏见:医疗决策中未明确记录的性别、种族刻板印象影响训练数据
- 系统性偏见:医疗资源分配不均导致数据缺失(如无保险群体)
- 确认偏见:开发者选择性采用验证假设的数据
- 数据偏见
- 代表性偏见:训练数据缺乏多样性(如CNN模型对黑人女性肺部疾病检测准确率下降)
- 测量偏见:不同医院影像设备参数差异导致模型误判
- 算法偏见
- 聚合偏见:统一特征选择忽略特定群体需求(如轮椅使用者体重缺失值处理)
- 特征选择偏见:代理变量使用引发歧视(某健康风险预测模型因医疗支出低估黑人患者实际病情)
缓解策略
全生命周期管理
概念阶段:组建多元团队,制定公平性指标(如不同族群准确率差异阈值)
数据采集:采用开放科学实践(如All of Us项目),优先收集弱势群体数据
预处理阶段:
- 分层采样:将黑人患者心脏MRI分割准确率从84.5%提升至93.84%
- 合成数据:SMOTE技术处理类别不平衡,但可能产生不真实样本
算法开发:
- 对抗训练:减少种族特征对模型输出的影响
- 联邦学习:在保护隐私前提下整合多机构数据
部署阶段:
- 人机协同决策(Human-in-the-loop)
- 动态阈值调整:根据患者个体特征优化预测结果
持续监测:
- FDA要求实时监控模型性能,防范概念漂移
- DECIDE-AI指南强调部署前开展影子测试
现实案例
案例1:健康风险预测模型
- 黑人患者群体因历史医疗支出低,被错误预测为低风险(实际慢性病数多26.3%)
- 通过引入慢性病计数替代医疗支出指标,高风险黑人患者纳入率从17.7%升至46.5%
案例2:心脏MRI分割模型
- 黑人患者Dice相似系数从84.5%提升至93.84%(分层采样方案)
- 独立模型方案需种族信息输入,实际应用受限
数据可用性
本综述基于已发表研究,未生成新数据。引用文献涵盖94篇核心研究及555项神经影像AI模型分析。
结论
医疗AI偏见缓解需贯穿全生命周期:
- 建立包含种族、性别维度的医疗数据集(当前83%研究存在高偏倚风险)
- 开发可解释模型(如LIME/SHAP方法)
- 制定伦理指南(如欧盟《人工智能法案》)
未来需将公平性指标纳入医学教育,并通过联邦学习技术解决数据孤岛问题。持续监测系统性偏见(如ICD编码变迁带来的测量偏倚)对维护医疗公平性至关重要。
【全文结束】


