如果放射科医生能够将AI系统作为可靠的诊断助手会怎样?我们最新发表的论文让这一愿景更接近现实:通过使用生成式AI,我们可以基于真实的X光影像探索不同的假设场景,例如患者在没有特定疾病的情况下身体会是什么样子。这为医生提供了安全且可解释的AI工具,以优化患者的诊疗决策。
PRISM:一种基于语言引导的稳定扩散技术实现的高分辨率、精确反事实医学影像生成模型(已被MIDL 2025接受为口头报告),不仅能够解释医学影像的内容,还能生成高分辨率、精确的“反事实”版本,从而实现个性化医疗并增强诊疗过程中的信任感。
通过对数千张医学影像进行微调,我们开发了一种既值得信赖又足够可解释的视觉-语言基础模型(Stable Diffusion),使其能够在真实世界的临床环境中使用。
PRISM的特点包括:
- 使用自然语言即可轻松操作;
- 值得信赖,因其专注于基于影像的可解释性;
- 可适应多种医学影像场景。
打开黑箱
在现实世界中应用AI的一大障碍在于,大多数模型的决策过程是隐藏的:医生通常只能看到输出结果(例如,“给定的医学影像显示患者健康或患病”)。
目前的医学影像AI模型主要依赖分类器或“黑箱”模型进行疾病诊断。由于这种“黑箱”特性,缺乏可解释性:我们无法知道模型是如何得出特定决策的。这些解决方案在实际医疗环境中难以实施,因为在医疗领域,决策过程与诊断本身同样重要。
为了增强对AI医学影像工具的信任,我们研究了模型在判断患者状况时关注的区域以及其决策依据。我们的目标是打开黑箱,揭示背后的原理:如果患者生病,我们需要知道原因。
信任的过程
我们通过生成高分辨率的反事实影像解决了黑箱模型的根本问题——展示在特定属性被改变后的替代场景,例如从原始影像中移除某种疾病病理或医疗设备。
该模型能够进行精确编辑,忽略疾病的其他混杂因素——即可能暗示暴露与疾病之间关系的隐藏变量。通过对比事实影像和反事实影像,可以清楚地看到哪些区域需要改变以生成新影像,突出显示模型与疾病相关联的区域。
PRISM还避免了数据集中存在的虚假相关性或“捷径”,这些相关性可能会影响模型的泛化能力(即适应未见过的数据)。例如,模型在学习疾病特征时,可能会错误地将疾病与用于治疗的设备(如胸管或起搏器)关联起来。
提高可访问性
为了让模型更加易用,我们引入了语言引导功能:医生可以通过输入提示,要求模型从健康患者的X光影像生成患病患者的影像,模型将合成所需影像。
PRISM可以进一步开发为医学影像分析的后端软件,或集成到现有工具中,成为执业放射科医生的有效AI助手,或未来医生的可靠培训工具。我们的开源权重允许进一步微调,以适应更多医学影像场景。
(全文结束)


