一项新研究发现,用于医疗保健的大语言模型(LLMs)会受到患者信息中看似无关细节的影响。
这可能导致不一致甚至带有偏见的治疗建议。这项研究在2025年ACM公平性、问责制和透明度会议(FAccT ™25)上发表,引发了人们对AI工具在医疗决策中可靠性的严重担忧。
研究发现,即使患者描述症状的方式有细微变化,如拼写错误、添加空格或语气变化,都会显著改变AI的治疗建议。
例如,当患者使用不确定的语言如"我觉得我可能有头痛"时,AI建议自我护理而不是专业医疗建议的可能性增加了7-9%,即使在需要进一步评估的情况下也是如此。
这些变化不仅仅是理论上的。研究人员使用AI模拟了数千条以不同语气和格式撰写的患者笔记,模仿了英语水平有限、打字技巧差或使用情绪化语言的人群。
信息中还包括中性代词和风格化写作,展示了一个人的沟通方式如何影响AI的诊断。
性别偏见也是一个主要问题。当引入非临床语言线索时,女性患者比男性患者更可能收到错误的自我管理建议。
后续测试显示,即使临床症状保持不变,AI模型比人类医生更容易根据感知的性别或沟通风格改变治疗建议。
这些模型在更真实、对话式的聊天环境中表现更差。在这些AI-患者互动中引入微小的文本变化时,诊断准确性下降了超过7%。
这很重要,因为AI越来越多地用于诊断疾病、回答患者问题和起草临床笔记。但研究表明,信息的写作方式、语气、错误或结构都可能扭曲AI的推理。
这可能导致对弱势群体的治疗不足,包括女性、非二元性别者、健康焦虑者、非英语母语者以及不太熟悉数字通信的人群。
"隐性偏见可以改变AI建议的基调和内容,这可能导致微妙但重要的差异,"未参与这项研究的加州大学圣地亚哥分校的Karandeep Singh说,正如《新科学家》报道的那样。
主要研究人员Abinitha Gourabathina强调:"我们的研究结果表明,AI模型不仅仅处理医疗事实——它们会受到信息呈现方式的影响。如果不解决这个问题,可能会加剧医疗保健的不平等。"
研究人员测试了多个领先的AI模型,包括OpenAI的GPT-4、Meta的Llama-3模型和Writer的医疗保健专用Palmyra-Med模型。所有模型都显示出同样的弱点:格式和语气的变化导致了可靠性较低的建议。尽管如此,Writer公司表示,他们的模型在没有人工参与的情况下不应该用于临床决策。
专家警告说,随着生成式AI在健康记录和患者服务中的使用越来越普遍,迫切需要更好的评估系统。
为了防止伤害,研究团队敦促对AI医疗工具进行更严格的测试,以确保无论患者如何表达他们的担忧,都能保持公平和准确。他们已经公开了他们的偏见评估框架,以帮助开发人员改进医疗保健领域的AI系统。
【全文结束】


