研究发现AI医疗工具低估女性和少数民族症状

AI medical tools found to downplay symptoms of women, ethnic minorities - Ars Technica

英国英语人工智能与医疗健康
新闻源:Ars Technica
2025-09-20 02:11:32阅读时长5分钟2156字
AI医疗工具健康结果女性健康少数民族健康医疗偏见健康数据集隐私问题AI幻觉健康差距

医生使用的人工智能工具可能导致女性和少数民族患者面临更差的健康结果,因为越来越多的研究表明,许多大型语言模型低估了这些患者的症状。

最近的一系列研究发现,整个医疗行业采用AI模型可能导致有偏见的医疗决策,强化西方社会中不同群体已有的治疗不足模式。

美国和英国顶尖大学研究人员的发现表明,由大型语言模型驱动的医疗AI工具有时无法反映女性患者症状的严重性,同时对黑人和亚裔患者表现出较少的"同理心"。

这些警告出现之际,全球顶尖AI公司如微软、亚马逊、OpenAI和谷歌正急于开发旨在减轻医生工作量并加快治疗速度的产品,所有这些努力都是为了帮助全球不堪重负的医疗系统。

全球许多医院和医生正在使用Gemini和ChatGPT等大型语言模型,以及Nabla和Heidi等初创公司的AI医疗笔记应用程序,自动生成功能患者就诊记录、突出显示医学相关细节并创建临床摘要。

今年6月,微软透露已开发出一款AI驱动的医疗工具,声称在诊断复杂疾病方面比人类医生成功四倍。

但麻省理工学院(MIT)Jameel诊所6月的研究发现,OpenAI的GPT-4、Meta的Llama 3和专注于医疗的LLM Palmyra-Med等AI模型对女性患者推荐的护理水平要低得多,并建议一些患者在家自我治疗而不是寻求帮助。

MIT团队的另一项研究表明,OpenAI的GPT-4和其他模型对寻求心理健康支持的黑人和亚裔人士的回答也缺乏同情心。

麻省理工学院Jameel诊所的副教授Marzyeh Ghassemi表示:"这表明一些患者可能仅基于模型对其种族的感知而获得支持性更少的指导。"

同样,伦敦经济学院的研究发现,Google的Gemma模型在用于生成和总结案例笔记时,与男性相比低估了女性的身心问题;该模型被英国超过一半的地方当局用于支持社会工作者。

Ghassemi的MIT团队发现,在医疗环境中使用的AI模型更可能(高出7-9个百分点)建议那些消息包含拼写错误、非正式语言或不确定措辞的患者不要寻求医疗护理,即使临床内容相同,相比那些使用完美格式化通信的患者。

这可能导致那些英语不是母语或不熟悉技术使用的人受到不公平对待。

有害偏见的问题部分源于用于训练大型语言模型的数据。GPT-4、Llama和Gemini等通用模型使用互联网数据进行训练,因此这些来源的偏见反映在响应中。AI开发者还可以通过在模型训练后添加保障措施来影响这种偏见如何渗入系统。

加州大学旧金山分校的兼职教授、AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack表示:"如果你处于任何可能由Reddit子论坛建议你健康决策的情况中,我认为这不是一个安全的地方。"

在去年的一项研究中,Zack和他的团队发现GPT-4没有考虑医疗状况的人口多样性,并倾向于对某些种族、民族和性别进行刻板印象。

研究人员警告,AI工具可能强化医疗行业中已存在的治疗不足模式,因为健康研究数据往往严重偏向男性,而女性健康问题等则面临长期资金不足和研究缺乏。

OpenAI表示,许多研究评估的是GPT-4的旧模型,自发布以来公司已提高了准确性。他们有团队致力于减少有害或误导性输出,特别关注健康领域。该公司还表示,他们与外部临床医生和研究人员合作评估模型、进行压力测试以识别风险。

该集团还与医生合作开发了一个基准,用于评估大型语言模型在健康领域的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。

Google表示,他们将模型偏见"极为严肃"对待,并正在开发隐私技术来净化敏感数据集并开发防止偏见和歧视的保障措施。

研究人员建议,减少AI医疗偏见的一种方法是首先确定哪些数据集不应用于训练,然后在多样且更具代表性的健康数据集上进行训练。

Zack表示,Open Evidence在美国被40万名医生用于总结患者病史和检索信息,其模型在医学期刊、美国食品药品监督管理局(FDA)的标签、健康指南和专家评论上进行训练。每个AI输出都有来源引用支持。

今年早些时候,伦敦大学学院和伦敦国王学院的研究人员与英国国家医疗服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。

该模型在5700万人的匿名患者数据上进行训练,数据包括住院和新冠疫苗接种等医疗事件。Foresight旨在预测可能的健康结果,如住院或心脏病发作。

伦敦大学学院(UCL)荣誉高级研究员、Foresight团队首席研究员Chris Tomlinson表示:"使用国家级数据使我们能够全面代表英格兰在人口统计和疾病方面的万花筒状态。"尽管不完美,但Tomlinson表示,这比更通用的数据集提供了更好的起点。

欧洲科学家还训练了一个名为Delphi-2M的AI模型,该模型基于英国生物银行(UK Biobank)40万名参与者的匿名医疗记录,预测未来数十年的疾病易感性。

但使用如此规模的真实患者数据,隐私往往成为问题。NHS的Foresight项目于6月暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院提出的关于其在模型训练中使用敏感健康数据的数据保护投诉。

此外,专家警告,AI系统经常"幻觉"—即编造答案—这在医疗环境中可能特别有害。

但麻省理工学院的Ghassemi表示,AI正在为医疗带来巨大益处。"我希望我们开始重新聚焦健康领域的模型,以解决关键的健康差距,而不是在医生已经相当擅长的任务性能上增加一个百分点。"

【全文结束】

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。