大型语言模型(LLMs)在改善医疗方面具有巨大潜力,支持从诊断决策到患者分诊等各种任务。它们现在可以在标准化的医学考试中取得高分,如美国医师执照考试(USMLE)。然而,仅基于考试成绩来评估临床准备度就像只通过交通规则笔试来评估一个人的驾驶能力一样,最近的一项研究发现。
尽管LLMs可以生成复杂的医疗问题回答,但其在现实世界中的临床表现仍然未得到充分检验。事实上,最近《美国医学会杂志》(JAMA)的一篇综述发现,只有5%的评估使用了真实的患者数据,而大多数研究则集中在标准化医学考试的表现上。这种情况强调了需要更好的评估方法,以衡量在真实医疗任务中的表现,最好是在可能的情况下使用实际临床数据。
2022年,斯坦福大学HAI的“基础模型研究中心”开发了一个基准框架——语言模型的全面评估(HELM),该框架提供了不断更新的评估。我们利用HELM框架为医疗应用创建了MedHELM。我们的团队包括生物医学信息学研究中心(BMIR)、斯坦福医疗保健的技术和数字解决方案团队(TDS)以及微软健康与生命科学(HLS)的研究人员,与临床医生、管理人员和临床信息学研究人员合作,收集了多样且具有临床相关性的LLMs用例。
开发真实任务分类法
为了确保MedHELM涵盖广泛的医疗场景,我们首先列出了医疗从业者认为有价值的任务。遵循HELM的原则,即广泛覆盖、多指标测量和标准化,我们将这些任务分为五个主要类别,基于(1)相关性,即确保任务反映真实的医疗用例,以及(2)粒度,即平衡不同医疗领域的特定性和泛化性。这五个类别是:临床决策支持、临床记录生成、患者沟通和教育、医学研究辅助,以及行政和工作流程。我们进一步将它们细分为22个子类别,产生了初始的98项任务。
为了验证分类法的清晰性和临床相关性,我们对来自斯坦福医疗保健和临床信息管理硕士(MCiM)项目的29名跨15个医学专业的执业临床医生进行了调查。审阅者在96.73%的情况下同意我们的任务定义,并将分类法的临床任务覆盖率评为4.21分(满分5分)。根据他们的反馈,我们增加了23项新任务,使总数从98增加到121,并细化了几个子类别的范围和定义(图2)。
识别公共和私有数据集
接下来,我们确定了相关的数据集,包括患者记录、结构化的电子健康记录代码以及患者-提供者对话,并将它们映射到适当的子类别。我们整理了31个数据集,其中11个是专门为MedHELM创建的,20个来自现有来源。通过确保每个子类别至少有一个对应的数据集,我们能够对模型在一系列真实医疗场景中的表现进行全面评估,从记录诊断报告到促进患者教育。图3显示了映射到临床决策支持类别的数据集。
将数据集转换为基准
要将数据集转换为HELM框架下的基准,我们需要定义四个要素:
- 上下文:模型必须分析的数据集部分(例如,患者记录)
- 提示:指令(例如,“计算患者的HAS-BLED评分”以支持诊断决策)
- 参考响应:参考输出(数值结果、分类标签或示例文本),用于对模型响应进行评分
- 度量标准:一种评分方法(例如,精确匹配、分类准确性、BertScore),量化模型输出与参考之间的匹配程度
考虑MedCalc-Bench,一个公开可用的数据集,用于评估模型执行临床相关数值计算的能力。它属于“支持诊断决策”子类别,数据集中的每个条目都包含临床记录、提示和真实答案。例如:
- 上下文:“患者记录:一位70岁的男性患者,病情复杂。他有高血压病史,最近一次就诊时血压为172/114。他的INR结果波动,过去一年中有超过三分之二的测量值高于治疗范围。他严格遵守不饮酒的规定,每周酒精摄入量为零。他否认使用阿司匹林、氯吡格雷或非甾体抗炎药。几年前,他曾因严重出血需要输血而住院。他的肝功能测试正常,排除了任何持续的肝脏疾病。他的健康状况需要密切监测,考虑到各种重要因素。”
- 提示:“问题:患者的HAS-BLED评分是多少?”
- 金标准响应:“4”
- 度量标准:精确匹配
选择评估指标
接下来,我们使用基准评估模型在不同医疗用例中的表现。虽然许多MedHELM基准具有离散的性能指标,如对于是非问题的分类准确性或对于医疗计算的精确匹配,但12个数据集的参考是开放式文本生成。建立良好的开放式文本生成指标具有挑战性。现有的文本匹配指标存在局限性,例如偏向较长的生成或特定写作风格,这可能无法准确反映真正的临床质量。具有高词汇重叠的输出可能在正确性或完整性方面存在显著差异(例如,省略或添加“发热”一词),这可能影响患者护理。因此,我们采用多方面的策略来评估生成的文本:
- 基于字符串的指标(BLEU、ROUGE、METEOR):这些指标评估n-gram重叠,查找模型输出和参考文本之间的共享词序列。虽然有助于捕捉广泛的语言相似性,但它们可能会忽略领域特定的细微差别(例如,发热)。
- 语义相似性(BERTScore):通过将文本映射为嵌入并评估语义对齐,BERTScore等指标可以检测到n-gram基础指标可能忽略的同义表达。然而,具有领域特定术语和格式不一致性的文本可能会人为降低语义相似性。
虽然每种单独的方法都不完美,但综合起来,它们仍然提供了一种评估开放式文本生成的整体质量和语义一致性的方法。未来,如果能够在医疗环境中验证法官LLM的表现,可以采用LLM作为评委的方法。
初步结果
我们在零样本设置下评估了六个不同规模和架构的大型语言模型,这意味着没有针对任何特定基准进行额外微调。这些模型的选择基于在斯坦福医学院的安全基础设施中的可用性,因为患者数据不能通过互联网上的公共API使用。这种设置使我们能够评估每个模型在一系列医疗用例中的开箱即用能力,从结构化分类任务(如确定未来临床事件是否会发生(EHRSHOT))到开放式文本生成场景(如生成治疗计划(MTSamples)或总结放射学报告(MIMIC-RRS))。这六个模型是:
- 大型模型:GPT-4o(2024-05-13,OpenAI)和Gemini 1.5 Pro(Google)
- 中型模型:Llama-3.3-70B-instruct(Meta)和GPT-4o-mini(2024-07-18,OpenAI)
- 小型模型:Phi-3.5-mini-instruct(Microsoft)和Qwen-2.5-7B-instruct(阿里巴巴)
在186次可能的基准测试运行(31 x 6)中,我们完成了170次评估,每个基准最多使用1000个样本。由于PHI合规环境的限制,我们无法在八个私有数据集上评估小型模型。图4总结了所有类别中模型的表现。对于前面展示的MedCalc-Bench示例条目,GPT-4o的回答是“4”(正确),而Qwen-2.5-7B-instruct的回答是“3”(错误)。
初步结果仅提供了临床LLM能力的部分画面。像Gemini 1.5 Pro和Phi-3.5-instruct这样的模型经常因为其他原因得分较低。例如,它们要么拒绝回答敏感的医疗问题,要么未能遵循格式说明(例如,提供离散的多项选择答案而不是解释性文本)。这些问题突显了如何将输出与所使用的指标相匹配的进一步工作的必要性。
总体而言,大型模型在复杂推理任务(如执行医疗计算和检测临床文本中的种族偏见)方面表现出色,而中型模型在计算需求较低的医疗预测任务(如预测再入院风险)方面表现具有竞争力。小型模型虽然适用于结构良好的任务,但在需要领域专业知识的任务(特别是心理健康咨询和医学知识评估)方面表现不佳。值得注意的是,开放式文本生成在所有模型大小中产生了类似的BertScore-F1范围。在12个基准中的10个中,最低和最高分数之间的差异小于0.07,表明这种自动化的自然语言处理指标可能不足以分析领域性能差距。
未来的方向
我们很高兴能够广泛分享MedHELM,因为它在实现可靠、安全的语言模型部署方面具有重大影响,这些模型在医疗任务中至关重要。拥有基准测试方法为未来的工作开辟了有趣的途径。例如,我们发现,在基准内部BertScore-F1的变化很大程度上是由于输出格式未标准化。这些观察结果强调了进一步工作的重要性,即将度量设计与模型可引导性相匹配,以量化模型性能。
例如,我们计划引入基于事实的度量(如SummaC、FActScore)以更好地量化正确性,并探索结合直接临床医生反馈的LLM作为评委的方法,从而实现输出及其与现实世界偏好的细致评分。
此外,基准本身可以通过更多专业数据集来扩展,以更深入地覆盖所有121项任务,并扩大模型套件(例如Deepseek-R1)。我们邀请社区提供反馈并贡献于MedHELM的努力。
(全文结束)


