隐性偏见风险
近期发表在《自然医学》的研究显示,生成式人工智能模型会仅基于患者的经济社会和人口背景,对相同病症推荐不同治疗方案。纽约西奈山医学院人工智能与人类健康温德赖希部门的生成式AI负责人埃亚勒·克莱恩博士及其团队警告,医师必须采取多项措施确保AI驱动的医疗服务安全、有效且普适。
研究团队在1000例急诊科病例中测试了9种大型语言模型(LLMs),其中半数基于真实分诊记录,半数采用合成临床案例。每例均用32种不同患者背景进行复制,产生超过170万条AI生成的医疗建议。尽管临床细节完全相同,AI模型仍会根据患者的社会经济和人口特征调整决策,影响分诊优先级、诊断检测、治疗方案及心理健康评估等关键环节。仅改变的社会人口特征包括黑人种族、无家可归状态或LGBTQIA+群体身份,临床信息保持不变。
克莱恩博士指出:"在170多万条输出结果中,我们发现模型建议与这些标识存在持续关联。例如,标注为'黑人且无家可归'或'黑人跨性别者'的病例,常被建议进行更紧急或侵入性干预,包括心理健康评估,而相同情境下未标注此类特征的病例则无此建议。"研究还显示高收入群体更易获得高级影像检查推荐,低收入群体则面临诊断选项减少。"这些差异跨越多种模型且无法用合理临床依据解释,偏见出现的频率和一致性令人震惊。"
研究团队强调,医师在采用AI工具时应:
- 使用代表本机构(如泌尿科或肾病科)的典型数据验证AI工具
- 将AI建议与已知最佳实践进行比对
克莱恩博士补充:"模型可能无意中编码并放大数据中的既有偏见,需警惕患者社会人口特征对AI建议的影响是否超过实际临床需求。应持续要求供应商提供AI验证测试结果。"
AI模型优势与缺陷评估
医师与AI模型各具优势。以色列特拉维夫大学K Health医学科学副总裁泽哈维·霍罗维茨-库格尔博士在《内科学年鉴》发表的真实世界研究中,对比了虚拟急症护理中AI初始建议与医师最终决策。该研究评估了2024年6月12日至7月14日的461例成人虚拟急症就诊:患者通过手机应用提交医疗主诉和人口信息,AI进行结构化动态问诊(平均5分钟25个问题),结合电子健康记录分析生成诊断排序及管理建议(处方、检验、转诊),医师可选择参考这些建议。
库格尔博士报告称,AI在急性呼吸道、泌尿生殖系统、阴道、眼部及牙科病症中表现优于医师,尤其在识别尿路感染(UTIs)方面精准建议先做培养再用药。"AI更严格遵循诊疗指南且不易滥用抗生素,这在意料之中,但令人印象深刻的是其从问诊或电子病历中捕捉关键信息的能力,如复发性尿路感染、近期住院史或多药耐药感染史。"AI还更擅长识别关键"危险信号",如隐形眼镜使用者的眼痛。
医师则更善于获取完整病史并据此调整方案。评审专家认定AI建议在77%病例中"最优",医师决策为67%;AI"潜在危害"发生率(2.9%)显著低于医师(4.6%)。在68%病例中双方建议质量相当,21%病例AI更优,11%病例医师更优。
"我们原计划验证非劣效性,却意外发现AI优越性的证据。令人关注的是评审专家对AI超越医师及反之情形的归类。"库格尔博士建议医师采用AI时应明确任务性质:"例如用于记录或自动化流程的技术性任务,与核心临床管理任务截然不同,必须确保AI设计与任务精准匹配。"
披露:虚拟急症护理研究由K Health资助,完整披露清单请参阅原始文献。
本文首发于《肾病与泌尿学新闻》
参考文献:
Omar M等. 大型语言模型医疗决策中的社会人口偏见. 《自然医学》(2025). doi:10.1038/s41591-025-03626-6
Zeltzer D等. AI辅助虚拟急症护理中初始人工智能与最终医师建议的对比. 《内科学年鉴》. doi:10.7326/ANNALS-24-0328
【全文结束】