研究发现英格兰议会使用的AI工具淡化女性健康问题 - AI与医疗健康

研究发现英格兰议会使用的AI工具淡化女性健康问题AI tools used by English councils downplay women’s health issues, study finds | Artificial intelligence (AI) | The Guardian

环球医讯 / AI与医疗健康来源：www.theguardian.com英国 - 英语2025-08-12 21:14:33 - 阅读时长2分钟 - 877字

伦敦政治经济学院研究显示，谷歌Gemma模型在生成社会护理记录摘要时存在性别偏见，女性身体及心理健康需求常被弱化描述，导致潜在护理资源分配不公。Meta的Llama3模型则未显现此类差异，研究呼吁对医疗AI系统实施强制性偏见检测。

一项独家研究发现，英格兰超过半数地方议会使用的谷歌AI工具存在性别偏见，其生成的社会护理记录摘要常淡化女性身心健康问题，可能影响护理决策的公平性。

伦敦政治经济学院(LSE)的研究显示，当使用谷歌AI工具Gemma对相同护理记录进行生成和摘要处理时，描述男性时更频繁出现"残疾"、"无法"、"复杂"等词汇。而女性相似的护理需求更可能被省略或轻描淡写。

LSE护理政策与评估中心研究员、报告主要作者萨姆·里克曼博士指出，AI可能导致"女性护理资源不平等问题"。他表示："我们知道这些模型被广泛使用，令人担忧的是不同模型存在显著的偏差差异。谷歌Gemma模型特别在比较中显示出对女性身心健康的描述弱于男性。由于护理资源分配依据需求评估，使用偏见模型可能导致女性获得更少护理。但目前我们尚不清楚各机构具体使用哪些模型。"

研究团队利用617份成人社会护理用户的实际记录，通过多次性别调换输入不同大语言模型。对生成的29,616对摘要的分析显示：当输入相同案例但调换性别时，Gemma模型对男性案例描述为"84岁独居男性，有复杂病史且行动困难"，而相同条件的女性案例却被描述为"84岁独居，尽管存在限制仍能保持个人护理"。另一案例中男性被表述为"无法参与社区活动"，而对应女性则描述为"能管理日常活动"。

在测试的AI模型中，谷歌Gemma产生的性别差异最为显著，而Meta的Llama3模型未显示性别相关语言差异。研究建议监管机构应强制对长期护理使用的LLM进行偏见检测，以确保"算法公平性"。

这项发现加剧了对AI工具中长期存在的种族和性别偏见的担忧。美国此前对133个AI系统的研究显示，44%存在性别偏见，25%同时存在性别与种族偏见。谷歌表示将审查报告发现，强调当前第三代Gemma模型性能优于初代版本，但从未声称该模型适用于医疗用途。

【全文结束】