临床医生被警告注意医疗AI工具的潜在缺陷Medical AI: Clinicians Warned About Potential Weaknesses - Dermatology Advisor

环球医讯 / AI与医疗健康来源:www.dermatologyadvisor.com美国 - 英语2025-11-08 06:45:21 - 阅读时长5分钟 - 2349字
近期研究揭示医疗人工智能工具在临床应用中存在显著弱点,包括基于患者社会经济和人口统计特征的隐性偏见问题,导致对黑人、无家可归者或LGBTQIA+群体的诊疗建议出现系统性偏差,如更频繁推荐紧急干预或减少低收入群体诊断选项;同时AI在尿路感染识别等特定领域表现优于医生,但医生在病史采集方面更具优势。专家强调医生必须实施严格测试和持续监督流程,验证AI工具在代表性数据上的表现,并警惕算法偏见对医疗公平性的影响,避免因盲目采用早期AI系统而损害患者安全与诊疗质量。
医疗AI工具潜在缺陷隐性偏见社会人口特征医疗建议监管权衡优劣势医生患者健康保障
临床医生被警告注意医疗AI工具的潜在缺陷

约翰·谢泽 | 发布日期:2025年11月7日

来源:盖蒂图片社 近期研究评估了人工智能(AI)辅助工具为患者提供高质量医疗建议的能力。

人工智能(AI)正迅速融入医疗保健领域。然而,医生们被警告称,除非实施正式且持续的审查流程,否则过早采用AI可能不符合其最佳利益。当前研究揭示了人工智能在医疗中的关键优势与劣势。

隐性偏见

发表在《自然医学》(Nature Medicine)上的一项最新研究显示,生成式AI模型仅基于患者的社會經濟和人口统计背景,便会对相同医疗状况推荐不同治疗方案。该研究资深合著者、纽约西奈山伊坎医学院(Mount Sinai’s Icahn School of Medicine)人工智能与人类健康温德赖希系(Windreich department of Artificial Intelligence and Human Health)生成式AI负责人伊亚尔·克朗医学博士(Eyal Klang, MD)及其研究团队警告,医生需采取多项措施确保AI驱动的医疗服务安全、有效且适用于所有人群。

研究人员在1000例急诊科病例中测试了9个大型语言模型(LLMs)。其中一半病例基于真实分诊记录,另一半基于合成临床案例。每例病例使用32种不同患者背景进行复现,实验生成了超过170万条AI医疗建议。

尽管临床细节完全相同,AI模型仍会根据患者的社会经济和人口统计特征调整决策,影响分诊优先级、诊断测试、治疗方案及心理健康评估等关键领域。唯一变量是社会人口统计细节,例如黑人种族、无家可归状态或LGBTQIA+身份,而临床信息保持不变。

“在超过170万条输出中,我们发现模型建议与这些标识符存在持续关联。例如,标注为‘黑人且无家可归’或‘黑人跨性别’的案例,相比未标注这些特征的相同场景,常被推荐更紧急或侵入性干预措施,包括心理健康评估,”克朗博士表示。

研究还显示,高收入群体更可能获得高级影像检查,而低收入群体从AI处获得的诊断选项较少。“这些差异在多个模型中持续存在,且无法用合理临床推理解释。我们对偏见出现的频率和一致性感到惊讶,”克朗博士补充道。

研究人员强调,这些发现仅反映AI行为的快照,但不一致性凸显了加强监管的必要性。克朗博士团队建议考虑采用AI工具的医生:

  • 使用泌尿科或肾病科代表性数据,将所有AI工具与临床实践进行测试对比;
  • 将AI生成的建议与已知最佳实践进行比对。

“模型可能无意中编码并放大数据中的既有偏见,”克朗博士指出,“需警惕患者社会人口特征对AI建议的影响是否超过有效临床需求。”他还强调,应向供应商或研究团队询问AI模型测试方法,并持续要求提供AI保障测试结果。

权衡AI模型的优劣势

医生与AI模型可能存在截然不同的优势与劣势。在《内科医学年鉴》(Annals of Internal Medicine)一项针对真实世界成人虚拟急诊患者的研究中,以色列特拉维夫大学(Tel Aviv University)K Health公司医学科学副总裁、初级保健医生泽哈维·霍罗威茨-库格勒医学博士(Zehavi Horowitz-Kugler, MD)及其同事,将初始AI治疗建议与主治医生的最终建议进行了比较。

该研究评估了2024年6月12日至7月14日的461例虚拟急诊就诊。成年患者通过移动应用程序输入医疗主诉并提供人口统计信息。AI模型随后进行结构化动态访谈,收集症状信息和病史。平均而言,患者在5分钟内回答25个问题。

AI算法分析患者回答及电子健康记录(EHR)数据,生成按优先级排序的鉴别诊断列表和管理建议(处方、实验室检查、转诊)。虚拟就诊期间,主治医生可查看这些AI建议,但可能未审阅。

库格勒博士报告称,在急性呼吸道、泌尿生殖系统、阴道、眼部和牙科投诉的子集中,AI表现优于医生。AI在识别尿路感染(UTIs)方面尤为成功,并建议在开药前先进行培养测试。

“AI更严格遵守指南且较少不必要地开具抗生素是意料之中的,因为它不受患者偏好影响,”库格勒博士表示,“但令人印象深刻的是,AI善于从接诊或电子病历数据中捕捉关键信息,如复发性UTIs、近期住院或既往多重耐药UTIs。”

AI在关联关键“警示信号”方面也更出色,例如隐形眼镜使用者的眼痛。

医生则更擅长从患者处获取完整病史并据此调整建议。

“评审专家认为AI在77%的案例中‘最优’,而医生决策为67%;AI被判定‘潜在有害’的情况(2.9%)也低于医生(4.6%)——所有差异均具统计学显著性,”库格勒博士报告。

在建议质量方面,68%的案例中AI与医生评级相同(均最优或均不足);21%的案例AI建议质量更优,11%的案例医生表现更佳。

“我们本欲证明AI非劣效性,却发现了其优越性证据。虽不意外,但看到评审专家对AI优于医生及反之的主要类别划分仍很有趣,”库格勒博士表示。

“对计划在临床实践中采用AI的医生,我的建议是明确分配给AI的具体任务。例如,若用于记录或自动化工作流程技术环节,其用途与用于核心临床管理问题截然不同。确保AI针对手头任务设计得当至关重要,”他补充道。

披露声明:该虚拟急诊研究由K Health公司资助。完整披露列表请参阅原始参考文献。

本文最初发表于《肾脏与泌尿学新闻》(Renal and Urology News)

参考文献:

Omar M, Soffer S, Agbareia R, 等. 大型语言模型在医疗决策中的社会人口统计偏见. 《自然医学》(2025).

Zeltzer D, Kugler Z, Hayat L, 等. AI辅助虚拟急诊就诊中初始人工智能与最终医生建议的比较. 《内科医学年鉴》.

【全文结束】

大健康
大健康