未来医疗人工智能国际共识指南:可信且可部署的人工智能应用框架FUTURE-AI: international consensus guideline for trustworthy and deployable artificial intelligence in healthcare

AI与医疗健康 / 来源:www.bmj.com英国 - 英语2025-08-26 08:13:53 - 阅读时长3分钟 - 1412字
该研究由来自50个国家的117名跨学科专家组成的未来人工智能联盟(FUTURE-AI Consortium)历时两年制定出涵盖医疗人工智能全生命周期的30项最佳实践指南,通过公平性、普遍性、可追溯性、可用性、稳健性、可解释性六大原则,解决医疗AI技术部署中的伦理、技术与临床安全问题,旨在推动符合医疗伦理、技术稳健且可实际应用的AI系统落地,其动态框架将随着技术发展持续更新。
医疗人工智能可信指南健康医患信任患者安全公平性可解释性乳腺癌筛查心血管疾病监管挑战
未来医疗人工智能国际共识指南:可信且可部署的人工智能应用框架

尽管医疗人工智能研究取得重大进展,但临床实践中的AI技术部署仍面临信任和伦理挑战。由来自50个国家的117名跨学科专家组成的未来人工智能联盟(FUTURE-AI Consortium)历经两年国际共识制定,发布首项覆盖医疗AI全生命周期的可信指南。该框架包含六大核心原则(公平性、普遍性、可追溯性、可用性、稳健性、可解释性)和30项具体实践,整合技术、临床、社会伦理和法律维度,提出持续风险评估、多利益相关方协作和动态更新机制,特别针对医疗领域特有的医患信任关系需求,强调可解释性与患者安全,同时通过数据保护、偏见修正等措施确保AI系统公平性,并设计持续监测机制应对真实世界数据漂移。指南通过设计-开发-验证-部署四阶段操作框架,提供具体实施步骤和案例,强调早期采用指南将节省开发成本,且通过动态更新机制保持技术适用性。研究团队已建立专用网站(future-ai.eu)收集社区反馈,推动该框架在乳腺癌筛查、心血管疾病等具体领域的应用深化。

指南核心框架

六大指导原则

  1. 公平性:要求AI系统在不同群体间保持诊断准确性,通过偏见识别(设计阶段定义偏见来源)、数据属性采集(年龄/性别/地理等)、公平性评估(使用真阳性率等指标)等3项推荐,修正数据采样偏差
  2. 普遍性:确保AI系统跨临床场景泛化能力,建议定义应用场景(单中心/多中心)、采用医学术语标准(SNOMED CT等)、进行外部数据验证(多中心临床试验)
  3. 可追溯性:建立全生命周期文档体系,包含风险管理体系、模型验证记录、用户操作日志等6项推荐,实现持续审计和错误溯源
  4. 可用性:强调人机交互设计,要求早期收集用户需求(患者/医师/管理者)、设计人工监督机制(如设置决策覆盖功能)、开展临床适用性评估(纳入不同数字素养的用户测试)
  5. 稳健性:应对现实世界数据变异,建议识别数据变异来源(设备差异/标注者误差)、采用代表性数据训练、通过对抗攻击测试验证系统稳健性
  6. 可解释性:根据应用场景定义解释需求(全局行为解释vs局部决策解释),推荐采用量化评估(计算解释正确性)和定性评估(医生满意度测试)相结合的验证方法

通用推荐

包含连续利益相关方参与、数据保护、风险管理等7项通用原则,特别强调:

  • 通过数据匿名化(差分隐私/加密)和伦理审查平衡隐私与偏见修正需求
  • 建立包含责任认定和补偿机制的AI治理框架
  • 通过碳足迹评估促进医疗AI可持续发展

实施路径

框架提供四阶段操作指南:

  1. 设计阶段:组建跨学科团队(含医学专家/伦理学家/社会科学家)开展临床需求分析,建立偏见监测清单
  2. 开发阶段:采用代表样本训练模型,实施模型卡片(Model Cards)文档制度,应用数据增强技术提升泛化能力
  3. 验证阶段:执行多中心临床试验,采用TRACE框架进行可追溯性验证,开发可解释性评估工具(如DoXpy度量)
  4. 部署阶段:建立持续监测系统,通过联邦学习实现本地化模型更新,开发碳足迹追踪工具

关键挑战

研究指出当前监管滞后问题:

  • 责任认定机制缺失:需明确错误审计责任主体和问责机制
  • 模型更新限制:现有法规禁止部署后修改,但临床环境持续变化
  • 成本分担机制:开发成本可能加剧医疗资源不平等,需多方协作

学术支持

本研究获欧盟地平线计划(952159等11项)、美国国立卫生研究院等多项资助,声明所有作者无重大利益冲突,仅报告相关企业(如IBM、西门子等)的非专利授权技术应用。

【全文结束】