研究发现大型语言模型在医疗建议中存在显著偏见

AI Models' Clinical Recommendations Contain Bias: Mount Sinai Study

美国英语科技与健康
新闻源:Newsweek on MSN
2025-04-09 23:23:00阅读时长3分钟1184字
大型语言模型医疗建议偏见社会人口群体医疗保健差异医疗干预数据质量AI工具卫生系统患者健康

一项新的研究发现,大型语言模型(LLMs)在提供医疗建议时存在显著偏见,验证了一些医生对AI临床能力的担忧。

纽约市西奈山伊坎医学院的研究人员评估了九种大型语言模型,比较了来自1,000个急诊科病例的超过170万条模型生成的输出,涵盖32个社会人口群体。每个模型被要求对同一患者提供临床建议,分别带有和不带社会人口标识符,并将其建议与由人类医生得出的基线建议进行比较。

研究发现,LLMs将被标记为黑人、无家可归者或LGBTQIA+的患者更频繁地推荐到紧急护理。LLMs还建议这些患者进行心理健康评估的频率大约是验证医生认为合适的六到七倍,比对照组高出两倍多。

研究还显示,被标记为高收入的患者获得LLMs推荐进行高级影像检查(如CT扫描和MRI)的可能性比对照组高出6.5%。与此同时,对于具有相同临床表现的低收入和中等收入患者,模型建议进行基本检查或不进一步检查。这些差异的程度并未得到临床推理或医生遵循的指南的支持,导致作者认为这些模型受到偏见的影响。

LLM偏见在医学文献中已经得到充分证实,但这项于4月7日在《自然医学》月刊上发表的研究量化了其程度和普遍性,据作者称。

该研究还挑战了更大的AI模型可以减轻偏见的理论。论文的共同资深作者、西奈山伊坎医学院温德里奇人工智能与人类健康系主任Girish Nadkarni博士在接受《新闻周刊》采访时说:“在不同规模的开源和闭源模型中,我们发现了‘极其普遍’的偏见。”

“如果你有相同的病例,只是改变了一些社会经济或人口特征,模型基本上会根据这些社会经济或人口信息改变下一步的最佳步骤,而不是基于相同的临床表现。”Nadkarni说,“这在临床上是无法解释的,因为无论你是富人还是穷人,医疗服务应该是相同的。”

目前美国的医疗系统充斥着医疗保健差异:黑人女性的孕产妇死亡率高于白人女性,低收入患者接受癌症筛查的频率低于高收入患者,LGBTQ人群报告的健康状况较差,等等。

研究作者写道,LLMs是通过人类数据训练的,可能会无意中反映这些现有的偏见。

“大型语言模型不仅仅是在医学数据上训练的:它们在互联网上生成的所有文本上进行训练,包括像Reddit这样的地方,在那里现实世界的偏见被编码到我们的谈话方式和思维方式中。”Nadkarni说。“互联网是一个相当有偏见的地方。”

这种偏见可能对个别患者和为其服务的医疗系统造成麻烦。如果边缘化群体被过度分诊,他们可能会参与不必要的医疗干预——增加了每年数百亿美元的医疗浪费。这也可能导致患者的污名化,特别是那些被过度推荐心理健康服务的LGBTQIA+和无家可归者。

另一方面,对边缘化群体的分诊不足可能会加剧对医疗系统的不信任,或导致治疗延误。

随着卫生系统继续投资AI工具,Nadkarni希望这项研究能提醒人们关注数据质量。

“我们意识到AI是变革性的,很多人都急于使用它,我理解为什么——我们的医疗系统确实需要帮助。”他说。“但同时,我们不应该忘记大规模部署这种技术的次生效应。”

“AI的承诺是规模:你可以扩大专业知识。但这也是危险之处,对吧?你也可以扩大错误。”


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。