MEDEC:用于检测和纠正临床笔记中医疗错误的基准MEDEC: A Benchmark for Detecting and Correcting Medical Errors in Clinical Notes Using LLMs

环球医讯 / AI与医疗健康来源:www.marktechpost.com美国 - 英语2025-01-03 04:00:00 - 阅读时长4分钟 - 1513字
本文介绍了由微软和华盛顿大学研究人员开发的MEDEC,这是首个公开可用的用于检测和纠正临床笔记中医疗错误的基准,旨在评估大型语言模型(LLM)在医疗文档中的表现,强调了确保LLM生成内容准确性的重要性。
MEDEC临床笔记医疗错误大型语言模型LLM医学文档准确性安全性错误检测纠正诊断管理治疗药物治疗致病生物基准自动化验证系统ChatGPTGPT-4医学专家USMLE召回率准确率ROUGE-1BLEURTBERTScore
MEDEC:用于检测和纠正临床笔记中医疗错误的基准

大型语言模型(LLM)在准确回答医学问题方面表现出色,甚至在某些医学考试中超过了平均水平的人类得分。然而,在医学文档任务(如临床笔记生成)中的应用面临挑战,因为存在生成不正确或不一致信息的风险。研究表明,20%的患者在阅读临床笔记时发现了错误,其中40%认为这些错误严重,通常涉及误诊。这引起了重大关注,尤其是在LLM越来越多地支持医学文档任务的情况下。尽管这些模型在回答医学考试问题和模仿临床推理方面表现出色,但它们容易产生幻觉和潜在有害内容,可能对临床决策产生不利影响。这突显了确保LLM生成的医学内容准确性和安全性的迫切需求。

最近的努力探索了通用领域的连贯性评估基准,例如语义、逻辑和事实连贯性,但这些方法往往无法确保跨测试案例的可靠性。虽然像ChatGPT和GPT-4这样的模型在推理和语言理解方面有所改进,但研究表明它们在逻辑连贯性方面仍存在困难。在医学领域,对LLM(如ChatGPT和GPT-4)的评估表明,它们在结构化的医学考试(如USMLE)中表现出色。然而,在处理复杂的医学查询时,局限性显现出来,LLM生成的患者沟通草稿也显示出潜在风险,包括如果错误未纠正可能会导致严重伤害。尽管取得了进展,但缺乏公开可用的基准来验证LLM生成的医学文本的正确性和一致性,强调了需要可靠的自动化验证系统来有效应对这些挑战。

来自微软和华盛顿大学的研究人员开发了MEDEC,这是第一个公开可用的用于检测和纠正临床笔记中医疗错误的基准。MEDEC包含3,848个临床文本,涵盖五种错误类型:诊断、管理、治疗、药物治疗和致病生物。使用先进的LLM(如GPT-4和Claude 3.5 Sonnet)进行的评估显示了它们在处理这些任务的能力,但人类医学专家的表现仍然优于它们。这个基准突显了验证和纠正临床文本的挑战,强调了需要具有强大医学推理能力的模型。这些实验的见解为改进未来的错误检测系统提供了指导。

MEDEC数据集包含3,848个临床文本,标注了五种错误类型:诊断、管理、治疗、药物治疗和致病生物。错误是通过利用医学委员会考试(MS)和修改华盛顿大学医院(UW)的真实临床笔记引入的。注释者通过向文本中注入不正确的医学实体来手动创建错误,同时确保与其他部分的一致性。MEDEC旨在评估模型在错误检测和纠正方面的表现,分为预测错误、识别错误句子和生成纠正三个部分。

实验使用了各种小型和大型语言模型(LLM),包括Phi-3-7B、Claude 3.5 Sonnet、Gemini 2.0 Flash和OpenAI的GPT-4系列,以评估它们在医学错误检测和纠正任务中的表现。这些模型被测试了识别错误、定位错误句子和生成纠正等子任务。使用准确率、召回率、ROUGE-1、BLEURT和BERTScore等指标来评估其能力,并结合这些指标的综合评分来衡量纠正质量。Claude 3.5 Sonnet在检测错误标志(70.16%)和错误句子(65.62%)方面取得了最高的准确率,而o1-preview在错误纠正方面表现最佳,综合评分为0.698。与专家医学注释的比较表明,尽管LLM表现良好,但在检测和纠正任务中仍不及医生。

性能差距可能是由于LLM预训练中缺乏特定的医疗错误数据,以及分析现有临床文本而非生成响应的挑战。在这些模型中,o1-preview在所有错误类型中表现出最高的召回率,但在精确度方面存在问题,经常高估错误的发生频率,与医学专家相比。这种精确度不足,加上模型依赖公共数据集,导致在不同子集上的性能差异,模型在公共数据集(如MEDEC-MS)上的表现优于私人集合(如MEDEC-UW)。


(全文结束)

大健康
大健康