想象一个AI模型,它可以使用心脏扫描来猜测你可能被归类为哪个种族类别——即使它没有被告知什么是种族或应该寻找什么。这听起来像是科幻小说,但它是真实的。
我最近的一项研究,与同事们共同进行,发现一个AI模型能够从心脏图像中以高达96%的准确率猜测患者是黑人还是白人——尽管没有提供任何明确的种族信息。
这是一个惊人的发现,挑战了关于AI客观性的假设,并突显了一个更深层次的问题:AI系统不仅反映世界,它们还会吸收和再现其中的偏见。
首先,需要明确的是:种族并不是一个生物学类别。现代遗传学表明,所谓的种族群体内部的变异比不同群体之间的变异要多得多。
种族是一个社会构建的概念,是一组由社会根据感知到的身体特征和祖先分类人们所创造的类别。这些分类并不直接对应于生物学,但它们影响着从生活经历到医疗保健的一切。
尽管如此,许多AI系统现在正在学习检测并可能基于这些社会标签采取行动,因为它们是建立在由将种族视为生物学事实的世界的数据基础上的。
AI系统已经在改变医疗保健。它们可以分析胸部X光片、阅读心脏扫描并在几秒钟内标记潜在问题,而不是几分钟。医院正在采用这些工具以提高效率、降低成本并标准化护理。
偏见不是错误——而是内置的
无论多么先进,AI系统都不是中立的。它们是在真实世界数据上训练的——而这些数据反映了现实世界的不平等,包括基于种族、性别、年龄和社会经济地位的不平等。这些系统可能会根据这些特征对患者进行不同的处理,即使没有人明确编程让它们这样做。
一个主要的偏见来源是不平衡的训练数据。如果一个模型主要从肤色较浅的患者那里学习,那么它可能难以检测到深色皮肤患者的情况。皮肤病学的研究已经显示了这个问题。
即使是像ChatGPT这样的语言模型也不是免疫的:一项研究发现,一些模型仍然复制过时和错误的医学信念,例如黑人患者的皮肤比白人患者厚的神话。
有时AI模型看起来很准确,但出于错误的原因——这种现象称为捷径学习。与其学习疾病的复杂特征,模型可能会依赖于数据中容易识别但无关紧要的线索。
想象两个医院病房:一个使用扫描仪A治疗严重的COVID-19患者,另一个使用扫描仪B治疗轻症患者。AI可能会学会将扫描仪A与严重疾病联系起来——不是因为它更好地理解了疾病,而是因为它注意到了扫描仪A特有的图像伪影。
现在想象一个重病患者使用扫描仪B进行了扫描。模型可能会错误地将其分类为病情较轻——不是由于医学错误,而是因为它学到了错误的捷径。
同样的有缺陷的推理也可能适用于种族。如果不同种族群体之间存在疾病发病率差异,AI可能会学会识别种族而不是疾病——这可能导致危险的后果。
在心脏扫描研究中,研究人员发现AI模型并没有真正关注心脏本身,因为在心脏上几乎没有与种族类别相关的可见差异。相反,它从心脏以外的区域获取信息,如皮下脂肪和图像伪影——这些不需要的失真(如运动模糊、噪声或压缩)会降低图像质量。这些伪影通常来自扫描仪,并会影响AI如何解释扫描结果。
在这项研究中,黑人参与者平均BMI较高,这意味着他们可能有更多的皮下脂肪,尽管这一点没有直接调查。一些研究表明,黑人在给定的BMI下往往有较少的内脏脂肪和较小的腰围,但更多的皮下脂肪。这表明AI可能是在捕捉这些间接的种族信号,而不是与心脏本身相关的信息。
这很重要,因为当AI模型学习种族——或者说,反映种族不平等的社会模式——而不理解背景时,风险在于它们可能会强化或加剧现有的不平等。
这不仅仅是公平问题——也是安全问题。
解决方案
但是有一些解决方案:
多样化训练数据:研究表明,使数据集更具代表性可以提高AI在各群体中的表现——而不会损害其他人的准确性。
建立透明度:许多AI系统被认为是“黑箱”,因为我们不了解它们是如何得出结论的。心脏扫描研究使用热图来显示哪些部分的图像影响了AI的决策,创建了一种可解释的AI,帮助医生和患者信任(或质疑)结果——这样我们就可以抓住它何时使用了不适当的捷径。
谨慎处理种族:研究人员和开发人员必须认识到,数据中的种族是一种社会信号,而不是生物学真相。需要仔细处理以避免延续伤害。
AI模型能够发现即使是受过最训练的人眼也可能会错过的模式。这正是它们强大之处——但也可能是危险之处。它们从同一个有缺陷的世界中学习。这包括我们如何对待种族:不是作为科学事实,而是作为一种社会视角,通过这种视角,健康、机会和风险是不平等地分配的。
如果AI系统学会了我们的捷径,它们可能会更快、更大规模地重复我们的错误——并且责任更少。当生命处于危险之中时,这是我们无法承受的风险。
(全文结束)


