正当你以为已经听遍所有新闻时,那些设计用于检测癌症的人工智能系统却因其与生俱来的种族偏见倾向令研究人员大为震惊。
这一令人担忧的发现发表在《Cell Reports Medicine》期刊上,显示四种领先的AI增强型病理诊断系统在准确性上会因患者的年龄、性别和种族而有所不同——令人不安的是,AI直接从病理切片中提取了这些人口统计学数据,而这一成就是人类医生无法做到的。
为了进行这项研究,哈佛大学的研究人员梳理了来自约14,400名癌症患者的近29,000张癌症病理图像。他们的分析发现,深度学习模型在29.3%的情况下表现出令人担忧的偏见——换句话说,在分配给它们的所有诊断任务中,几乎有三分之一存在这种情况。
哈佛研究员、该研究的资深作者余国兴(Kun-Hsing Yu)在新闻稿中表示:"我们发现,由于AI功能如此强大,它可以区分许多标准人类评估无法检测到的模糊生物信号。对人类病理学家来说,从病理切片中读取人口统计学数据被认为是'不可能完成的任务',因此病理AI中的偏见令我们感到惊讶。"
余国兴表示,这些基于偏见的错误是AI模型在分析癌组织时依赖与各种人口统计学相关模式的结果。换句话说,一旦这四种AI工具锁定一个人的年龄、种族或性别,这些因素就会成为组织分析的骨干。实际上,AI会继续复制由AI训练数据缺口导致的偏见。
以一个具体例子来说,AI工具能够识别出专门取自黑人的样本。作者写道,这些癌症切片中异常的、肿瘤性细胞的数量较高,而支持性元素的数量较低,与白人患者的切片相比,这使得AI能够识别它们,尽管样本是匿名的。
随后问题出现了。一旦AI病理工具识别出一个人的种族,它们就会过度专注于寻找符合该特定标识符的先前分析结果。但当模型主要基于白人的数据进行训练时,这些工具在处理代表性不足的人群时就会遇到困难。例如,AI模型在区分黑人肺部癌细胞的亚类时遇到困难——不是因为缺乏可用于参考的肺癌数据,而是因为缺乏可用于参考的黑人肺癌细胞数据。
余国兴在新闻稿中表示,"这令人意外,因为我们期望病理评估是客观的。在评估图像时,我们不一定需要知道患者的种族统计信息来进行诊断。"
早在今年6月,医学研究人员就在大型语言模型(LLM)精神科诊断工具中发现了类似的种族偏见。在那种情况下,结果显示,当明确知道黑人患者的身份时,AI工具通常会为他们提出"较差的治疗"方案。
对于AI癌症筛查工具,哈佛研究团队还开发了一种名为FAIR-Path的新AI训练方法。当在分析前将此训练框架引入AI工具时,他们发现它成功阻止了88.5%的性能差异。
有解决方案存在是好消息,尽管那剩余的11.5%也不容小觑。在病理学领域的所有AI工具都强制使用此类训练框架之前,系统固有偏见的问题仍将持续存在。
【全文结束】


