大型语言模型(LLMs)正在被英格兰超过半数的地方政府机构用于协助社会工作者处理行政工作,但伦敦政治经济学院(LSE)最新研究表明,这些技术可能正在护理决策中引入性别偏见。
发表于《BMC医学信息学与决策》的研究发现,谷歌广泛使用的AI模型"Gemma"在生成和总结案例记录时,系统性地淡化女性健康问题的严重程度。与男性相比,描述男性时更频繁出现"残障""无法""复杂"等重大健康问题相关术语,而相似的女性护理需求则更可能被省略或使用较轻描述。
LSE护理政策与评估中心研究员、报告主要作者Sam Rickman博士指出:"当社会工作者依赖带有偏见的AI生成摘要时,他们可能基于性别而非实际需求评估相似案例。由于社会护理的获取取决于感知需求,这种性别差异可能导致女性获得的护理质量不平等。"
为检测潜在性别偏见,研究团队利用LLMs对617份成人社会护理用户的真实案例记录进行性别置换实验,生成29,616组对比摘要。分析显示,AI在描述身心健康问题时存在统计学显著的性别差异。测试发现谷歌Gemma模型相较于2019年开发的基准模型表现出更明显的性别差异,而同代的Meta Llama 3模型则未表现出此类差异。
该研究首次通过最先进的LLM和基准模型对现实护理记录中的性别偏见进行量化测量,为AI在长期护理领域的应用风险提供了证据支持。Rickman博士强调:"虽然研究仅揭示单一模型的问题,但新AI系统的持续部署要求必须建立透明性、严格偏见测试和法律监管机制。"
【全文结束】


