如何评估医学人工智能
How to Evaluate Medical AI
摘要
将人工智能(AI)整合到医学诊断流程中需要稳健且一致的评估方法,以确保可靠性、临床相关性以及对专家判断固有变异性的考量。传统指标如精确度和召回率往往无法考虑专家判断的固有变异性,导致对AI性能评估不一致。科恩卡帕(Cohen’s Kappa)等评分者间一致性统计量更可靠,但缺乏可解释性。我们引入算法诊断相对精度(RPAD)和相对召回率(RRAD)新评估指标,通过对比AI输出与多个专家意见(而非单一参考)来标准化性能评估。通过与专家间分歧归一化,这些指标提供了更稳定和现实的预测诊断质量度量。
除了对诊断质量指标的综合分析,本研究还取得重要附带成果:评估方法避免了诊断列表限制,使模型和验证人员均可得出自由形式的诊断。这种自动建立自由临床诊断一致性的方法实现了98%的惊人准确率。
我们通过360组医学对话数据评估方法,对比多款大型语言模型(LLMs)与医生小组的诊断一致性。大规模研究显示,如DeepSeek-V3等顶级模型的诊断一致性与专家共识相当或更优。更值得注意的是,专家判断存在显著变异性——往往超过AI与人类之间的差异。这一发现凸显了任何"绝对"指标的局限性,并支持在医学AI中采用相对指标的必要性。
1 引言
人工智能在医疗保健领域的快速发展为医学诊断开辟了新天地,有望实现更快、更准确和更可及的疾病检测(Topol, 2019;Yu et al., 2018)。随着AI系统在分析医学影像、实验室结果和患者数据方面展现能力,其革新诊断流程的潜力引起了医疗提供者、研究人员和行业利益相关者的广泛关注(Rajpurkar et al., 2022;McKinney et al., 2020;Liu et al., 2019)。最新研究表明,AI辅助诊断工具在特定领域(如放射影像癌症检测或组织样本病理模式识别)的表现可与或甚至超越人类表现。
然而,AI诊断的实施面临若干需要仔细审查的关键挑战。可靠性、可重复性和泛化能力仍是医学界关注的核心问题(Nagendran et al., 2020;He et al., 2019;Roberts et al., 2021)。许多AI算法的"黑箱"特性,加上训练数据中的潜在偏见和现实临床环境中的变异性,引发了关于系统可信度和临床有效性的重大问题(Chen et al., 2021;Obermeyer et al., 2019;Gianfrancesco et al., 2018)。此外,将AI诊断整合到现有医疗流程中还存在监管合规性、责任考量和标准化验证协议等实际挑战(Wiens et al., 2019;Panch et al., 2019)。
2 相关研究
2.1 医学诊断系统演变
早期基于规则的专家系统如Mycin和DXplain开创了AI支持临床决策的先河(Shortliffe, 1977;Barnett et al., 1987)。这些系统依赖手工编写规则和知识库,提供可解释推荐。但其静态特性限制了适应性,特别是在应对复杂多变的患者表现时。后续时期引入了由机器学习技术驱动的特定任务AI模型。平台如Babylon Health和Ada Health展示了数据驱动方法在分诊和症状评估中的潜力(Moramarco et al., 2021;Kühnel et al., 2023)。尽管这些模型在诊断速度和可扩展性上有所改进,但往往依赖狭窄的训练数据集和单轮互动,限制了其进行更全面诊断推理的能力。
2.2 质量指标的重要性
随着诊断系统的复杂化,质量指标在评估其性能中的作用日益凸显。传统准确度量虽然有用,但往往无法捕捉现实世界诊断任务的复杂性(Zhou et al., 2024;Shi et al., 2024)。需要更细致的指标不仅要评估系统正确回答的频率,还要评估其处理模糊案例、罕见疾病和多样化患者群体的能力。近期研究强调反映临床相关性和安全性的指标重要性(Mehandru et al., 2024;Meng et al., 2024;Nazi和Peng, 2024;Bedi et al., 2024)。例如,研究提出使用与医生判断一致或基于模拟真实临床工作流程的指标(Mehandru et al., 2024;Ahsan et al., 2024)。这些方法确保AI系统在与实际使用环境相似的背景下进行评估。此外,分层指标(如跨不同人口群体的性能度量)正成为识别和缓解偏见的关键工具(Yang et al., 2024;Simmons et al., 2024)。
2.3 稳定指标之路
鉴于这些挑战,我们引入了一种与专家临床判断密切对应的新型评估指标。该指标通过考虑临床相关性和可靠性,提供更稳定和有意义的模型性能视图。通过在基于模拟和现实临床场景中的严格测试,我们证明该指标能更好捕捉医学诊断的细微差别,为理解和改进AI诊断系统提供更清晰的路径。
3 方法
算法工作的结果是一系列诊断假设(以下简称诊断)。要评估系统质量,必须解决两个问题:一是选择评估系统质量的指标;二是确定两个包含诊断的文本字符串是否包含相同诊断。我们提出定量评估算法诊断的指标:算法诊断相对精度(RPAD)和相对召回率(RRAD)。第二个问题通过选择匹配函数解决。
3.1 指标
诊断系统输出𝔇=[[D1,…,Dn]],n∈ℕ是n个诊断包D=[[d1,…,dk]],k∈ℕ的集合,其中d是包含诊断的文本字符串。专家期望性能集𝔈={E1,…,Ez},z∈ℕ,专家E是函数E:ℭ↦𝔇。算法A:ℭ↦𝔇,且不在专家集中。定义算法与专家间的成对精度P和召回率R:
PAE@k=∑i=1nμ(DiA,DiE)/(nk²)
RAE@k=∑i=1nχ(DiA,DiE)/n
其中μ是多重性函数,χ是特征函数。专家间指标同理。定义乐观相对指标:
Poрt@k=(max{PAE1@k,…,PAEz@k})/(min{PE1E2@k,…,PEz-1Ez@k})
定义平均相对指标:
Pavg@k=(1/z)∑i=1zPAEi@k/(2/z(z-1))∑i=1z-1∑j=i+1zPEiEj@k
最终定义RPAD和RRAD:
RPAD@k=[(1-H)·max{PAE@k}+H·PAE@k¯]/[(1-H)·min{PEE@k}+H·PEE@k¯]
RRAD@k=[(1-H)·max{RAE@k}+H·RAE@k¯]/[(1-H)·min{REE@k}+H·REE@k¯]
其中H∈[0,1]是硬度参数。这些指标的含义是:任一指标低于1.0表示专家间一致性高于专家与算法间一致性,反之则相反。
3.2 匹配函数
为解决诊断文本匹配问题,我们实现了基于全面特征工程的监督元模型方法。该模型用于定义匹配函数M,预测诊断对(dA,dE)是否应被视为匹配。
特征构建与预处理
匹配函数在标记诊断对上通过多阶段流水线训练。首先应用预处理标准化数据,包括小写化、标点去除、缩写扩展和领域特定规则修正。训练集4833个样本,测试集1469个样本,由3位专家标注(多数投票决定最终标签),另1位专家根据专家开发的标准审查测试集。
训练元模型时提取17个特征,分为四类:
- 直接LLM提示:使用Llama-3.1-70B-Instruct等5个模型评估诊断相似性,输出二元特征。
- 带RAG和ICD词典的LLM:使用检索增强生成(RAG)系统索引20000+ ICD条目,通过BERGAMOT模型生成嵌入。
- 文本嵌入相似性:使用Giga、BERGAMOT、Arctic-Embed模型计算余弦相似度。
- 语言相似性比率:计算n-gram、词干、词元、词性标签的交集大小与最小集合大小的比率。
元模型训练与评估
使用AutoGluon AutoML框架训练,目标为交叉验证的平均精度。训练限制为1小时,启用自动集成(堆叠)。最终最佳模型是LightGBM分类器的装袋集成。
特征重要性与选择
初始通过相关性分析过滤低信息特征(如2-gram和词性标签比率),但未见性能提升。最终基于AutoGluon提供的排列-混洗特征重要性选择,所有特征均有非负贡献。SHAP值分析验证了特征重要性。
表2显示最终匹配函数MM的评估指标:
指标 | 数值 |
---|---|
精确度 | 0.91 |
召回率 | 0.90 |
F1值 | 0.91 |
准确率 | 0.98 |
4 结果与讨论
4.1 数据
原始数据集包含n=360组对话。前半部分是两位专家扮演预设场景的对话(一位扮演患者,一位扮演医生)。后半部分是患者扮演者与LLM医生的对话。真值标签由z=7位住院医师专家标记,每位专家对每组对话标记kmаx=3个诊断。
4.2 LLM比较
基于专家数据,计算不同LLM的成对和相对指标。表3显示不同LLM的相对诊断质量:
LLM | Pavg@1 | Popt@1 | Ravg@3 | Ropt@3 |
---|---|---|---|---|
GigaChat-Max | 1.09 | + | 1.12 | + |
Qwen-72B | 1.00 | + | 1.06 | + |
DeepSeek-V3 | 1.15 | + | 1.16 | + |
GPT4o | 1.13 | + | 1.13 | + |
DeepSeek-V3显示最高一致性,与GigaChat-Max和GPT4o的差距不显著。Dist-Qwen32B和Llama-405B表现最差。Roрt@3<1表示这两个模型无法作为候选。
图4显示相对精度和召回率随诊断数量变化的趋势,DeepSeek-V3始终表现最佳。虚线代表1.0阈值,超过表明模型与专家的一致性至少与专家间相当或更优。DeepSeek-V3在RRAD@k多次超过该阈值,显示其与甚至超越专家共识的一致性。
4.3 专家响应变异性
计算专家和算法响应的精度和召回率分布(图5)。以DeepSeek-V3为例,模型响应比专家间响应更集中。计算无偏标准差(图6):
σRA=√[1/(z-1)∑i=1z(RAEi@k-RA𝔈@k¯)²]
σR𝔈¯=1/z∑i=1z√[1/(z-2)∑j≠iz(REiEj@k-REi𝔈@k¯)²]
结果显示专家响应方差显著高于各模型,有时高达数倍。因此优选相对指标RPAD和RRAD评估算法诊断质量。专家意见差异如此之大,绝对指标在选择不同专家时可能相差数倍。
4.4 科恩卡帕
计算科恩卡帕(κ)分布(图7)的无偏方差估计:
σκA=√[1/(z-1)∑i=1z(κAEi-κA𝔈¯)²]
σκ𝔈¯=1/z∑i=1z√[1/(z-2)∑j≠iz(κEiEj-κEi𝔈¯)²]
科恩卡帕在DeepSeek-V3与专家对中的分布与专家间完全重叠,表明其缺乏区分模型的分辨率。原因包括:
- 仅考虑首个诊断(Top-1)
- Top-k偏倚导致"虚假共识效应"
- 临床精细度不足,临床同义或密切相关诊断计为完全不一致
相比之下,RPAD和RRAD基于专家间方差归一化,在高专家变异性下提供更可靠和可解释的诊断性能比较。
5 结论
本研究揭示评估AI诊断系统的关键挑战:专家判断的高变异性。分析显示人类专家间分歧常大于AI模型与专家共识差异。这种变异性使传统绝对指标不可靠,结果因所选专家而异。
我们引入相对指标(RPAD和RRAD),通过对比AI输出与专家意见范围而非单一参考,提供更稳定的评估。开发的监督元模型结合LLM评估、文本嵌入和语言相似性特征,准确匹配诊断。结果显示AI模型可实现超越人类专家的一致性,但专家高变异性凸显需考虑多视角的标准化评估框架。
测试显示DeepSeek-V3等模型表现良好,有时匹配或超越专家共识。但顶级模型间差异较小,临床应用需谨慎选择。建议未来工作探索更清晰的诊断指南或共识方法减少专家分歧,改进医疗AI评估。强调AI诊断应评估准确性和一致性,以及与专家意见的对齐。我们的方法为这一挑战提供实用解决方案,支持更好整合医疗AI。未来应扩展到更多样化医学场景,进一步改进评估方法。
【全文结束】
声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。
本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。