AI 认为 X 光片与吃炒豆或喝啤酒有关AI thought X-rays are connected to eating refried beans or drinking beer

环球医讯 / AI与医疗健康来源:www.zmescience.com美国 - 英语2024-12-14 05:00:00 - 阅读时长5分钟 - 2084字
研究人员发现,AI 在医疗影像分析中有时会依赖无关因素,导致误导性的结果,例如认为 X 光片可以预测患者是否喝啤酒或避免吃炒豆。
AIX光片捷径学习混淆变量医学影像误诊偏见深度学习健康访问
AI 认为 X 光片与吃炒豆或喝啤酒有关

医学影像是诊断的基石,而人工智能(AI)有望彻底改变这一领域。凭借检测人类肉眼无法察觉的特征和趋势的能力,AI 有望实现更快、更准确的诊断。

但在这份承诺之下隐藏着一个令人担忧的缺陷:AI 倾向于走捷径和草率下结论。这些捷径可能导致误导性甚至危险的结论。例如,有些算法认为它们可以根据某人是否喝啤酒来“预测”X 光片的结果。

研究者训练了卷积神经网络(CNN)——一种最流行的深度学习算法——执行一项奇怪的任务:通过查看膝关节X光片来预测患者是否避免吃炒豆或喝啤酒。模型确实做到了这一点:它在预测炒豆避免率上达到了63%的准确率,在啤酒避免率上达到了73%的准确率。

显然,这违背了逻辑。膝关节解剖结构与饮食偏好之间没有任何联系。然而,模型产生了具有统计显著性的结果。但这奇怪的结果并不是由于某种隐藏的医学洞察。相反,这是一个典型的捷径学习案例。

捷径学习和混淆变量

这项研究使用了骨关节炎倡议(OAI)数据集,这是一个包含超过25,000张膝关节X光片的庞大集合。数据集中包含了各种混淆因素——可能扭曲模型学习的变量。研究者发现,AI 模型能够以惊人的准确性预测患者的性别、种族、临床地点,甚至是X光机的制造商。例如:

  • 性别预测:98.7%的准确率
  • 临床地点预测:98.2%的准确率
  • 种族预测:92.1%的准确率

这是有用的信息,但问题是:AI 可能是在利用这些混淆因素作为捷径。例如,如果某个临床地点有更多特定人口统计学特征的患者,AI 可能会将该人口统计学特征与某些诊断关联起来——这是一种反映偏见而非医学现实的捷径。

捷径学习发生在AI模型利用数据中的表面模式而不是学习有意义的关系时。在医学影像中,捷径学习意味着模型并没有识别医学条件,而是抓住了无关的线索。

“虽然AI有可能彻底改变医学影像,但我们必须谨慎,”该研究的资深作者、达特茅斯健康中心的骨科医生彼得·席林博士说。“这些模型可以看到人类无法看到的模式,但它们识别的所有模式并不都是有意义或可靠的。认识到这些风险至关重要,以防止得出误导性结论并确保科学的完整性。”

这可能会成为一个更大的问题

社会总体上仍在决定如何在医疗保健中合理使用AI。从业者同意,AI 不应单独解释医学影像;最多只能作为辅助工具,结果和解释仍需由专家重新分析。但随着AI使用的日益广泛,以及大规模的人力短缺,AI 可能在医疗中扮演更重要的角色。

这就是为什么这些发现如此令人担忧。例如,AI 可能会根据X光图像中的独特标记(如标签的位置或用于遮盖患者信息的黑色部分)识别特定的临床地点。这些标记可能与患者的人口统计学特征或其他潜在变量(如年龄、种族或饮食)相关——这些因素不应影响诊断,但会导致AI的预测偏差。

想象一下,一个训练用于检测胸部X光片疾病的AI。如果AI学会将特定医院的标签样式与疾病流行率关联起来,那么当应用于其他医院的图像时,其预测将是不可靠的。这种偏差可能导致误诊和有缺陷的研究结果。

捷径学习也削弱了AI驱动发现的可信度。研究人员和临床医生可能会被误导,认为AI已经发现了重要的医学见解,而实际上它只是利用了一个无意义的模式。

“这不仅仅是来自种族或性别线索的偏见,”该研究的共同作者、达特茅斯希区柯克的机器学习科学家布兰登·希尔说。“我们发现算法甚至可以预测X光片拍摄的年份。这是非常有害的——当你阻止它学习这些元素之一时,它反而会学习之前忽略的另一个元素。这种危险可能导致一些非常荒谬的主张,研究人员需要意识到在使用这项技术时这种情况是多么容易发生。”

我们能解决这个问题吗?

消除捷径学习非常困难。即使经过广泛的预处理和图像归一化,AI 仍然能够识别出人类无法看到的模式,并倾向于基于这些模式进行解释。这种“作弊”能力,即找到无关但具有统计显著性的相关性,对医学应用构成了严重风险。

捷径学习的挑战没有简单的解决方案。研究人员提出了各种减少偏见的方法,如平衡数据集或去除混淆变量。但这项研究表明,这些解决方案往往效果不佳。捷径学习可能涉及多个交织的因素,使其难以隔离和纠正每一个因素。

该研究的作者认为,医学影像中的AI需要更多的审查。深度学习算法不是假设检验工具——它们是强大的模式识别工具。当用于科学研究时,其结果必须经过严格的验证,以确保它们反映了真正的医学见解,而不是统计伪影。

“在医学中使用模型发现新模式时,证明责任大大增加,”希尔说。“问题的一部分在于我们自己的偏见。很容易陷入认为模型‘看到’的方式与我们相同。最终,它并不。”

研究人员还告诫不要将AI视为同行专家。

“AI 几乎就像在处理一种外星智能,”希尔继续说道。“你想要说模型是在‘作弊’,但这是将技术拟人化了。它找到了解决给定任务的方法,但不一定是人类会采用的方法。它没有我们通常理解的逻辑或推理能力。”

期刊参考:Ravi Aggarwal 等,《深度学习在医学影像诊断中的准确性:系统评价和荟萃分析》,《npj 数字医学》(2021)。DOI: 10.1038/s41746-021-00438-z


(全文结束)

大健康
大健康