临床医生被警告医疗AI工具的潜在弱点Clinicians Warned About Potential Weaknesses in Medical AI Tools

环球医讯 / AI与医疗健康来源:www.renalandurologynews.com美国 - 英语2025-06-05 22:00:00 - 阅读时长5分钟 - 2291字
最近的研究评估了人工智能(AI)辅助工具在提供高质量医疗建议方面的能力,发现了一些关键的优势和劣势。研究显示AI模型在处理相同医疗条件时,会根据患者的经济和社会背景推荐不同的治疗方案,这引发了对AI在医疗领域应用的担忧。
医疗AI健康隐性偏见临床医生患者医疗建议优势劣势社会人口特征虚拟紧急护理尿路感染
临床医生被警告医疗AI工具的潜在弱点

临床医生被警告医疗AI工具的潜在弱点

约翰·谢泽

|

发布日期 2025年6月5日

来源: Getty Images 最近的研究评估了人工智能(AI)辅助工具在为患者提供高质量医疗建议方面的能力。

人工智能(AI)正在迅速融入医疗保健领域。然而,医生们被警告说,除非他们实施正式且持续的审查过程,否则作为早期采用者可能并不符合他们的最佳利益。当代研究表明了人工智能在医疗保健中的一些关键优势和劣势。

隐性偏见

在《自然医学》杂志上发表的一项最新研究中,生成式AI模型仅根据患者的经济和社会背景推荐了针对同一医疗状况的不同治疗方法。资深研究合著者埃亚尔·克拉格博士是纽约西奈山伊坎医学院温德里奇人工智能与人类健康系的生成式AI首席专家。他和他的研究团队告诫医生需要采取几个步骤,以确保AI驱动的护理对所有患者都是安全、有效和适当的。

研究人员测试了9个大型语言模型(LLMs),涉及1000个急诊科病例。其中一半基于真实的分诊记录,另一半基于合成的临床案例。每个病例都使用32种不同的患者背景进行了复制。实验产生了超过170万个AI生成的医疗建议。

尽管临床细节相同,但AI模型偶尔会根据患者的经济和社会人口特征改变其决策,影响到诸如分诊优先级、诊断测试、治疗方法和心理健康评估等关键领域。唯一的变化是社会人口统计信息,如黑人种族、无家可归状态或LGBTQIA+。临床信息保持不变。

“在超过170万次输出中,我们发现模型的建议与这些标识符一致地发生了变化。例如,标记为‘黑人且无家可归’或‘黑人跨性别者’的病例通常会收到更紧急或侵入性的干预措施,包括心理健康评估,而与没有这些描述符的相同情况相比。”克拉格博士说。

研究还显示,高收入群体更有可能被提供高级成像,而低收入群体从AI那里获得的诊断选项较少。“这些差异在多个模型中持续存在,并且无法通过合理的临床推理来解释。我们对这些偏见出现的频率和一致性感到惊讶。”克拉格博士说。

研究人员警告说,这些发现仅代表AI行为的一个快照。尽管如此,这些不一致之处强调了加强监督的必要性。克拉格博士及其团队建议考虑使用AI工具的医生:

  • 使用来自您的泌尿科或肾病科实践的代表性数据,测试所有AI工具。
  • 将AI生成的建议与您已知的最佳实践进行比较。

“模型可能会无意中编码并放大现有数据中的偏见,”克拉格博士说。“注意患者的社会人口特征是否会比有效的临床需求更多地改变AI的建议。”他还补充说,重要的是要询问供应商或研究团队如何测试他们的AI模型,并要求定期提供AI保证测试结果。

权衡AI模型的优势与劣势

医生和AI模型可能具有不同的优势和劣势。特拉维夫大学K Health公司副总裁兼初级保健医生Zehavi Horowitz-Kugler博士及其同事在《内科学年鉴》上发表了一项关于真实世界成人患者请求虚拟紧急护理的研究,比较了初始AI治疗建议与管理医生的最终建议。

该研究评估了2024年6月12日至7月14日之间的461次虚拟紧急护理访问。成年患者在一个移动应用程序上输入他们的医疗问题并提供了人口统计信息。然后,AI模型进行结构化动态访谈,收集症状信息和病史。平均而言,患者在5分钟内回答了25个问题。

AI算法分析了患者的答案以及电子健康记录(EHR)中的数据,然后生成了一个差分诊断列表和管理建议(处方、实验室检查、转诊)。在虚拟访问期间,管理医生可以访问这些AI建议,但他们可能不会查看它们。

库格勒博士报告说,AI在急性呼吸道、泌尿生殖系统、阴道、眼睛和牙齿投诉的子集中表现优于医生。AI特别成功地识别了尿路感染(UTI),并在开具药物之前建议进行培养。

“预计AI会更一致地遵守指南,并且不太可能不必要的开抗生素,因为它不受患者偏好的影响,”库格勒博士说。“然而,看到AI在摄入或EMR数据中捕捉到关键信息的能力令人印象深刻,例如复发性UTI、近期住院或之前的多重耐药UTI。”

AI还在连接关键“红旗”方面表现出色,例如隐形眼镜使用者的眼痛。

医生在从患者那里获取更完整的历史方面做得更好,并相应地调整他们的建议。

“仲裁员发现AI在77%的病例中是‘最佳’的,而医生的决定在67%的病例中是‘最佳’的,”库格勒博士报告说。“他们还发现AI‘潜在有害’的情况较少(2.9%),而医生则为4.6%——所有这些差异均具有统计学意义。”

在建议质量方面,AI和医生在68%的病例中被评为同等(两者均为最佳或均不足)。在21%的病例中,AI建议的质量更高,在11%的病例中医生的建议更好。

“我们的目标是证明非劣效性,但相反,我们发现了AI优越性的证据。我不能说我们感到惊讶,但看到仲裁员在主要类别中AI优于医生,反之亦然,这是有趣的,”库格勒博士说。

“对于希望在其临床实践中采用AI的医生,我的建议是要注意分配给AI的具体任务。例如,如果您将AI用于诸如抄写或自动化工作流程的技术部分,这与将AI用于核心临床管理问题不同。重要的是要确保AI适合手头的任务,”库格勒博士说。

参考文献:

Omar M, Soffer S, Agbareia R, 等. 大型语言模型在医疗决策中的社会人口统计偏见。Nat Med (2025). doi:10.1038/s41591-025-03626-6

Zeltzer D, Kugler Z, Hayat L, 等. 在AI辅助虚拟紧急护理访问中,初始AI和最终医生建议的比较。Annals Intern Med. doi:10.7326/ANNALS-24-0328


(全文结束)

大健康
大健康