各种用于分析医学图像数据的商业AI模型可能会受到图像上文字注释的影响。研究人员发现,这些模型尚未达到临床应用所需的准确度。他们调查了多种AI模型在分析医学图像数据时的表现,发现提示注入对多模态AI模型的输出有显著影响。当额外的文字信息作为无意的“提示”时,会影响AI模型的决策。然而,在病理学图像上,手写标签或水印并不罕见。
在这项发表于《NEJM AI》杂志的研究中,由美因茨大学医学中心和德累斯顿工业大学(TUD)的Else Kröner Fresenius Center (EKFZ) 数字健康中心及其他科学家领导的研究团队测试了Claude 3 Opus、Claude 3.5 Sonnet 和 GPT-4o 模型。然而,这些模型在之前并未专门用病理学数据进行训练。
研究人员测试了这些模型对手写标签和水印在病理图像上的反应。如果额外的信息是正确的,AI 的输出几乎总是完全正确。然而,误导性的附加信息似乎会导致模型忽略其实际任务并产生错误结果。这在病理学中尤其具有挑战性,因为图像数据上的手写笔记或标记更为常见。
据美因茨大学医学中心病理学研究所数字病理学与人工智能工作组负责人Sebastian Försch教授表示,同时接受文本和图像数据训练的AI模型特别容易受到这些提示注入的影响。“例如,如果一张肺肿瘤的X光片附带了一条指示模型忽略肿瘤的文本,这将显著降低模型正确识别肿瘤的能力。”
德累斯顿工业大学临床人工智能教授Jakob N. Kather说:“为了使AI能够可靠且安全地支持医生,必须系统地检查其弱点和潜在错误来源。仅仅展示模型能做什么是不够的——我们必须具体调查它还不能做什么。”
专门训练的AI模型可能对附加文本信息的错误响应较少。因此,在临床实践中使用AI模型及其结果之前,应始终由人类专家进行验证。美因茨大学医学中心PD Dr. Sebastian Försch领导的团队正在开发一种特定的“病理学基础模型”。
(全文结束)


