MIT研究人员发现,大型语言模型可能会因临床问询输入的形式差异而对女性和弱势患者提供不足的医疗服务。
© xy - stock.adobe.com
用于帮助分诊患者信息的人工智能(AI)模型可能比之前认为的对语法、格式和语气更加敏感,并对女性和其他弱势群体产生不成比例的影响,麻省理工学院(MIT)的一项新研究表明。
随着像OpenAI的GPT-4这样的大型语言模型(LLMs)被应用于临床环境,以帮助确定患者是否应自我管理、前来就诊或获得额外资源,这些发现引发了关于公平性、安全性和临床监督的新担忧。
“这是强有力的证据,表明在医疗保健领域使用模型之前必须对其进行审计——这是一个已经投入使用的场景,”该研究的资深作者、MIT副教授Marzyeh Ghassemi博士表示。“LLMs在平均表现上足够灵活和高效,我们可能会认为这是一个很好的用例。”
形式重于内容
这项研究——将在本周的计算机协会(ACM)公平性、问责制和透明度会议上展示——测试了九种风格和结构上的变化如何影响LLMs在超过6700个临床情景中的治疗建议。这些变化包括现实中的变体:拼写错误、夸张的语言、多余的空格、非正式的语法以及性别标志词的调换或删除。
为了测试效果,研究人员采用了三步流程:
- 首先,通过引入拼写错误或非正式措辞等小而现实的变化,创建患者信息的修改版本。
- 然后,将每个原始和修改后的信息输入LLM以收集治疗建议。
- 最后,比较LLM的原始和扰动响应之间的差异——观察一致性和准确性以及子组间的差异。以人工验证的答案作为基准。
尽管所有临床内容相同,但LLM的响应显著不同。在包括GPT-4在内的所有四个模型中,当信息受到明显扰动时,LLMs推荐自我管理而非医疗护理的可能性增加了7-9%。
最显著的变化发生在信息包含夸张或不确定语言的情况下,这表明有健康焦虑或英语非母语的患者即使需要护理,也可能被建议留在家中。
研究人员还发现,即使去除了性别提示词,LLMs更有可能减少对女性患者的护理建议。添加多余的空格使女性患者减少护理错误的风险增加了5%以上。
“在研究中,我们倾向于看汇总统计数据,但在翻译过程中会丢失很多东西,”该研究的主要作者、MIT电气工程与计算机科学系(EECS)研究生Abinitha Gourabathina说。“我们需要关注这些错误发生的方向——不建议就诊而应该就诊的危害要比相反情况大得多。”
在模拟患者-AI聊天机器人的对话格式中,当信息受到扰动时,临床准确性下降了约7%。受影响最大的情景涉及自由形式的患者输入,反映了现实世界的通信。
团队评估了四个不同的模型,涵盖肿瘤学、皮肤病学和普通医学的静态和对话数据集。每位真实临床医生先前已用验证答案标注了每个案例。
这意味着什么
该研究突显了研究人员所描述的“脆弱性”在AI医疗推理中的存在——患者书写方式的小的、非临床差异可以引导护理决策转向,而临床医生不会这样做。
人类医生不受相同变化的影响。在正在审查的后续工作中,研究人员发现改变信息的风格或语气并不会影响人类临床医生的判断,进一步凸显了LLMs的脆弱性。
研究人员表示,他们的研究结果支持在高风险环境中部署LLMs之前进行更严格的审计和子组测试,特别是面向患者的工具。
“这或许并不令人惊讶——LLMs并非设计为优先考虑患者的医疗护理,”Ghassemi说。“……我们不想优化一个只为特定群体患者工作的医疗系统。”
(全文结束)


