医学成像是现代医疗保健中最关键的工具之一,使医生能够诊断疾病、监测病情并指导治疗计划。最近在人工智能(AI)和大型语言模型(LLMs)方面的进展引入了一种革命性的方法——医学视觉问答系统(MedVQA),该系统允许临床医生就医学图像提出问题,并获得智能的、由AI生成的答案。
一项新的研究,“生成模型在医学视觉问答中的应用:综述”,由Wenjie Dong、Shuhao Shen、Yuqiang Han、Tao Tan、Jian Wu和Hongxia Xu共同完成,并发表在《应用科学》(2025, 15, 2983)上,探讨了生成模型如何重塑MedVQA系统。该研究考察了从判别模型(依赖于选择预定义答案)到生成模型(使用LLMs和多模态学习提供更灵活的自由文本响应)的转变。它强调了视觉-语言预训练、指令微调和微调策略的进步,这些进步增强了AI驱动的医学推理能力。
从判别式到生成式MedVQA的转变
传统的MedVQA系统主要使用判别模型,这些模型作为分类器,从固定的答案集中选择答案。虽然这些模型在简单的任务中(例如“是否有肿瘤?”或“显示的是哪个器官?”)有效,但在需要详细推理的复杂开放式医学查询中却表现不佳。
最新的生成式AI技术已经导致MedVQA的范式转变,使AI模型能够生成完整的答案而不是从预定义的列表中选择。生成式MedVQA利用自回归解码、基于变压器的架构和多模态大型语言模型(MLLMs)等深度学习技术,使AI能够处理图像、理解问题并在实时生成相关的医学回答。
例如,早期的模型如CGMVQA(2020年)和MedFuseNet(2021年)将生成特性与分类器相结合。然而,直到2023年和2024年,随着视觉-语言预训练(VLP)和多模态AI模型(如GPT-4、LLaVA-Med和Med-Flamingo)的突破,生成式MedVQA才取得了快速进展。这些模型现在结合了医学图像解释和高级自然语言处理,显著提高了AI辅助的临床决策。
生成式AI如何改进医学影像解读
生成式MedVQA模型使用四步法来处理医学图像并提供AI生成的答案:
- 图像特征提取——AI驱动的模型使用视觉变压器(ViT)和卷积神经网络(CNN)从X射线、CT扫描、MRI和病理切片中提取特征。
- 文本理解——大型语言模型(如LLaMA、GPT和BioMedBERT)处理医学问题并提取与诊断相关的关键词。
- 多模态融合——AI将图像和文本特征结合起来,创建一个上下文感知的响应,确保临床准确性。
- 答案生成——模型不是从列表中选择答案,而是根据AI驱动的医学推理生成完整的文本响应,提供详细的临床决策解释。
例如,Med-Flamingo是一种多模态AI模型,它结合了基于GPT的语言理解和ViT图像编码器,以高准确性和医学相关性回答复杂的诊断查询。与此同时,LLaVA-Med通过增强指令微调,使医生能够根据具体的医学指南细化AI生成的响应。
部署生成式MedVQA模型的挑战
尽管具有潜力,生成式MedVQA模型在实际应用中仍面临若干挑战。研究确定了关键障碍和可能的解决方案:
- 数据限制——AI模型需要大量高质量的带注释医学图像。虽然像VQA-RAD、MIMIC-CXR-VQA和PMC-VQA这样的数据集提供了训练材料,但数据稀缺仍然是一个挑战,尤其是对于罕见疾病。研究人员正在开发合成数据集生成技术,使用基于GPT的增强和AI辅助的医学注释来解决这一差距。
- 幻觉风险——生成式AI的最大挑战之一是产生不准确或误导性的医学信息的风险。与依赖结构化输出的传统模型不同,生成模型如果训练不当,可能会“幻觉”出错误的诊断。研究建议集成检索增强生成(RAG)框架,使AI模型在生成答案之前能够参考经过验证的医学知识来源(如PubMed、临床数据库)。
- 缺乏临床信任——医生和医疗专业人员在没有人工验证的情况下,不愿依赖AI生成的响应。研究强调需要可解释的人工智能(XAI)技术,如Shapley Additive Explanations(SHAP)和局部可解释模型无关解释(LIME),以提供透明度并确保AI生成的答案符合临床最佳实践。
- 计算成本和可扩展性——像LLaVA-Med和Med-Flamingo这样的AI模型在训练和部署时需要大量的GPU资源,这使得它们对于较小的医院和诊所来说非常昂贵。研究人员正在探索参数高效微调(PEFT)技术,如低秩适应(LoRA)和量化LoRA(QLoRA),以减少计算需求同时保持准确性。
AI驱动的医学视觉问答的未来
将AI和多模态语言模型整合到医学图像分析中标志着医疗保健的新时代。研究预测,未来的MedVQA系统将变得更加先进,包括以下增强功能:
- 实时AI辅助诊断——未来的AI模型将与医院成像系统集成,提供即时诊断见解,减轻放射科医生的工作负担并改善患者结果。
- 跨模态AI模型——未来的MedVQA系统不仅会在X射线或MRI上进行训练,还将在统一框架中分析多种成像类型(CT、超声波、病理学),提高不同医学领域的准确性。
- 个性化AI响应——AI驱动的MedVQA系统将根据个别患者的资料量身定制答案,确保个性化的诊断和治疗建议。
- 符合监管要求的AI模型——随着AI在医疗保健中的集成越来越多,政府和医疗机构将实施针对AI驱动诊断的法规,确保AI在医学中的伦理和透明使用。
AI驱动的医学成像的未来前景看好,但在全球范围内的医院和诊所全面部署此类生成模型之前,必须解决数据稀缺、幻觉风险和监管问题等挑战。
(全文结束)


