AI医疗设备可能在测试中表现良好,但根据Paragon Health Institute一份研究医疗AI系统中"泛化不确定性"的新报告,当用于医学图像与用于训练基础模型的数据不同的真实患者时,其中一些设备仍可能失效。
该报告将泛化描述为AI设备在受控测试环境之外准确处理和解释真实世界数据的能力,认为故障可能会造成患者安全风险、削弱临床医生信心,并减缓AI技术在医疗环境中的更广泛应用。
与依赖确定性规则的传统软件系统不同,AI医疗设备通常使用基于特定数据集训练的预测模型。
报告认为,模型性能与该训练数据的特性密切相关,这意味着当遇到与开发过程中使用的数据显著不同的患者、成像技术或临床环境时,设备可能会出现问题。
Paragon Health Institute医疗AI倡议主任兼该报告作者Kev Coleman告诉Healthcare IT News:"泛化不确定性是临床AI中日益受到关注的问题,特别是考虑到当前设备验证的不足。"
Coleman认为,当前解决泛化问题的方法仍然有限,指出提出的解决方案——第三方算法认证、训练数据审查和医生对训练数据适用性的评估——可能成本高昂、难以扩展,并且不太适合未来在部署后持续发展的自适应AI系统。
"训练数据太少或数据中一致性太高可能导致AI设备在开发过程中表现良好,但在现实世界中出现问题,"他解释道。
该报告认为,仅广泛的代表性可能无法完全解决算法偏见或可靠性问题。
即使训练数据集包含多样化的群体,其医学图像与数据集内部主导特征差异显著的个别患者仍可能面临不准确输出的更高风险。
该报告强调了影响AI可靠性的另一个经常被忽视的因素:成像设备和技术人员技术引入的差异。放射学硬件、图像质量和临床工作流程的差异都可能影响AI系统是否能在医疗环境中成功泛化。
报告建议采用"数字相似性分析"方法,而不是强制要求更广泛地披露专有训练数据。这是一种自愿工具,可在使用AI设备前将个体患者的医学图像与设备的训练和测试数据进行比较。
Coleman表示,在医疗AI领域,验证和监管缺口可能因使用的AI算法类型和使用环境而异。
他指出,FDA正在努力完善对AI设备的监管,因为AI与该机构最初设想的软件作为医疗器械的监管方式存在差异。
"正在考虑的问题之一是上市后监测的作用以及何时需要进行这项活动,"Coleman说。
该机构还向AI设备制造商提供了指导,强调需要采用全产品生命周期风险管理方法。
"鉴于该机构可能有朝一日批准医疗设备中的自适应或生成式AI,全产品生命周期管理对AI被视为极其重要,"Coleman解释说。
Photo: KATLEHO SEISA/SEIZAVISUALS via Getty Images
【全文结束】

