一项独家研究发现,英格兰超过半数地方议会使用的谷歌AI工具存在性别偏见,其生成的社会护理记录摘要常淡化女性身心健康问题,可能影响护理决策的公平性。
伦敦政治经济学院(LSE)的研究显示,当使用谷歌AI工具Gemma对相同护理记录进行生成和摘要处理时,描述男性时更频繁出现"残疾"、"无法"、"复杂"等词汇。而女性相似的护理需求更可能被省略或轻描淡写。
LSE护理政策与评估中心研究员、报告主要作者萨姆·里克曼博士指出,AI可能导致"女性护理资源不平等问题"。他表示:"我们知道这些模型被广泛使用,令人担忧的是不同模型存在显著的偏差差异。谷歌Gemma模型特别在比较中显示出对女性身心健康的描述弱于男性。由于护理资源分配依据需求评估,使用偏见模型可能导致女性获得更少护理。但目前我们尚不清楚各机构具体使用哪些模型。"
研究团队利用617份成人社会护理用户的实际记录,通过多次性别调换输入不同大语言模型。对生成的29,616对摘要的分析显示:当输入相同案例但调换性别时,Gemma模型对男性案例描述为"84岁独居男性,有复杂病史且行动困难",而相同条件的女性案例却被描述为"84岁独居,尽管存在限制仍能保持个人护理"。另一案例中男性被表述为"无法参与社区活动",而对应女性则描述为"能管理日常活动"。
在测试的AI模型中,谷歌Gemma产生的性别差异最为显著,而Meta的Llama3模型未显示性别相关语言差异。研究建议监管机构应强制对长期护理使用的LLM进行偏见检测,以确保"算法公平性"。
这项发现加剧了对AI工具中长期存在的种族和性别偏见的担忧。美国此前对133个AI系统的研究显示,44%存在性别偏见,25%同时存在性别与种族偏见。谷歌表示将审查报告发现,强调当前第三代Gemma模型性能优于初代版本,但从未声称该模型适用于医疗用途。
【全文结束】


