摘要
在采用大型语言模型(LLM)进行AI辅助临床决策时,一个关键的缺失环节是没有标准化的审计框架来评估模型的准确性和偏见。我们的框架引入了一个五步流程,指导从业者通过利益相关者参与、针对特定患者群体的模型校准以及通过临床相关场景进行严格测试。我们提供了用于利益相关者参与的开放工具和一个审计示例。随着模型监管变得愈加重要,我们认为采用一种测试模型输出而非特定超参数或输入的审计框架将鼓励在临床环境中负责任地使用AI。
引言
大型语言模型(LLM)的广泛采用揭示了临床环境中特别是准确性、偏见和患者隐私方面的重大挑战。尽管有一些工具可以帮助解决算法层面的偏见,但目前尚无全面的方法供新用户识别和减轻这些危害。即使如此,迄今为止的研究已经探索了多种应用,包括辅助鉴别诊断、回答美国医学执照考试(USMLE)问题、提供准确的医疗建议以及从电子病历中提取患者信息。每项研究都使用了不同的审计方法和准确性指标,反映了评估LLM性能的初期临床协议。除了对LLM整体准确性的疑问外,还有人担心历史偏见会在AI预测中重现,可能加剧健康不平等。所有这些问题导致了对医疗AI工具的不信任。例如,60%的美国人表示对AI参与他们的医疗保健感到不适。为了解决这些问题,需要一种标准化的方法来创建、传播和测试这些方法和工具。
结果
第一步:与利益相关者互动定义审计目标、实验参数和结果指标
我们明确承认医疗机构在资源、人口和临床环境方面存在很大差异。因此,我们提供了一个强大且可重复的框架,机构可以将其适应并操作化为详细的、特定于环境的协议。为了确保此类审计的有效性和机构适用性,必须就审计目的、关键问题、方法和结果达成一致。AI辅助决策中的偏见可能影响护理的所有组成部分。重要的是,这些偏见可能源于超越模型技术准确性的因素,例如模型的实施和使用方式,以及输出如何在临床上解释。由于影响深远,医疗系统必须包括患者、医生、医院管理人员、IT人员、AI专家、伦理学家和行为科学家在内的利益相关者参与生成式AI集成的评估过程。
第二步:针对患者人群校准大型语言模型以进行评估
开始模型校准后,指导委员会必须首先确定要评估的模型。尽管这是一种相对较新的技术,许多开源和闭源生成式AI模型已经可用,并围绕它们开发了广泛的工具,使从业者和研究人员更容易使用它们。大多数医院部署的LLM版本基于商业平台构建,例如OpenAI的GPT-4和ChatGPT,这是一种对话式变体。一些竞争模型包括Gemini和Claude。许多专门的医疗模型正在开发中,允许患者隐私感知建模。
第三步:执行并分析审计实验
在校准模型并确定测试第一步中设定假设所需的重复次数后,分析师将实施并执行审计。分析可以直接使用临床案例。如果委员会未预先定义案例,这些案例可以来自多个来源,例如:(1) USMLE或类似的基于考试的问题;(2) NEJM Healer;(3) Merck手册或已发表的案例研究或标准化患者。不同来源的案例将评估LLM在不同临床任务中的准确性和偏见的不同领域。例如,USMLE有多选题并评估LLM能否根据医学知识找到正确答案,而NEJM Healer则要求有临床推理的所有可能性的鉴别诊断,因为更多患者信息被揭示出来。如果审计的目标是考虑文本响应的质量(与黄金标准相比),分析师会希望既有临床表现又有黄金标准文本答案。为了评估整合临床输入在减少LLM幻觉方面的有效性,我们建议分析师采用自然语言处理中评估文本生成质量的既定定量指标。具体来说,我们建议Recall-Oriented Understudy for Gisting Evaluation (ROUGE);Metric for Evaluation of Translation with Explicit ORdering (METEOR);和BERTScore。
第四步:价值对齐
在第一步中,指导委员会讨论了在临床护理过程中采用新技术的伦理考虑、潜在好处和成本。现在有了第三步的审计结果,委员会可以更彻底地调查统计证据显示的模型错误率的好处和成本,以及与审计相关的统计错误。
第五步:通过监控数据漂移和LLM变化持续评估临床环境中的LLM
重要的是持续监控LLM在医疗环境中的各种利益相关者的适应情况,收集患者反馈,并在患者人群的数据模式发生变化(数据漂移)和模型得到新改进时对LLM进行审计。如果LLM已经在临床环境中使用,指导委员会可能希望评估其他一些指标。首先,委员会可能希望收集有关LLM在各个临床部门使用情况的数据。监控LLM的采用/接受度及其融入日常临床工作流程的情况将告知委员会哪些医疗专业人员和临床护理路径正在使用生成式AI技术。其次,如第二步所述,模型校准至关重要。委员会将希望监控EMR中患者人群数据模式的变化。这个问题被称为机器学习实践者所熟知的数据漂移,并且是一个已知会影响LLM校准的问题。任何模型更新都应经过此框架的第二步和第三步。最后,医院可能希望通过与独立评估机构签约来评估患者对AI辅助护理体验的反馈。患者报告的结果可以帮助指导委员会了解AI辅助护理对患者的影响。
(全文结束)


