能够应对劣质模型的框架:人类与AI协作用于临床试验

The Framework That Survives Bad Models: Human-AI Collaboration For Clinical Trials

美国英语人工智能在医疗健康领域的应用
新闻源:unknown
2025-10-11 19:13:45阅读时长9分钟4374字
健康AI临床试验疾病评估框架劣质模型治疗效果泛化能力准确性效率稳健性中轴型脊柱关节炎

摘要

人工智能(AI)在支持临床试验方面具有巨大潜力,从患者招募和终点评估到治疗反应预测。然而,在没有保障措施的情况下部署AI会带来重大风险,尤其是在评估直接影响试验结论的患者终点时。我们比较了两种AI框架与仅靠人类评估在医学图像疾病评估方面的表现,衡量了成本、准确性、稳健性和泛化能力。为了对这些框架进行压力测试,我们注入了劣质模型——从随机猜测到天真预测——以确保即使在模型严重退化的情况下,观察到的治疗效果仍然有效。我们使用两个随机对照试验评估了这些框架,试验终点源自脊柱X光图像。我们的研究结果表明,将AI作为支持性读者(AI-SR)是最适合临床试验的方法,因为它满足各种模型类型的所有标准,即使使用劣质模型也是如此。该方法始终提供可靠的疾病估计,保留临床试验治疗效果估计和结论,并在应用于不同人群时保持这些优势。

关键词:AI ⋅ 药物开发 ⋅ 框架 ⋅ 劣质模型

1 引言

如今,AI已成为我们生活的一部分,从大型语言模型(LLMs)、汽车导航到精准天气预报。这些模型之所以能融入我们的日常生活,是因为它们展现了卓越的性能(即模型成功完成任务的能力),任何故障的风险都远远小于它们带来的价值。然而,相比之下,尽管AI在医疗保健和药物开发的多个领域都有帮助潜力,但其影响却相对有限。

首先,AI已被建议用于分析临床试验产生的大量数据。它可以帮助研究人员识别潜在药物候选物、预测患者反应并优化试验设计,从而带来个性化医疗,实现更有效和更有针对性的疗法。其次,AI有潜力增强合适患者的招募——这是临床试验中最大的挑战之一。AI可以通过分析电子健康记录、组学信息和其他相关非传统数据源,更高效地帮助识别和招募合格患者。最后,使用AI进行疾病评估(例如对医学图像进行分级)可以大大减少临床试验的成本和时间,并减少错误(读者变异性、人工录入错误)。

为了让AI应用于临床试验,研究人员可以尝试提高模型性能以匹配人类水平,将所有风险单独放在AI模型上;或者采取措施减轻临床试验中的AI风险,接受模型可能比人类读者表现更差。在本研究中,我们将关注后者,了解一个训练有素的模型(尽可能高性能)在用于临床试验时的表现。我们还探索了AI模型可能危险(例如随机预测)的情况,以压力测试我们框架的极限并确保强有力的保障措施。

受Ng等人研究的启发(该研究探讨了使用AI对癌症图像进行分类:人类vs AI独立vs AI支持),我们修改了这一概念,将其应用于免疫学以对脊柱X光图像进行分类。我们进一步扩展了其原始范围,通过量化治疗效果(临床试验中的关键终点)进行评估。总之,在本研究中,我们旨在量化在临床试验中使用AI的几个关键方面:

  1. 效率:AI能否减少临床试验的时间和成本?
  2. 稳健性:使用表现一般的AI是否对疾病评估有害?模型性能在什么程度上可以安全使用?
  3. 泛化能力:该框架能否应用于多个研究?
  4. 准确性:在临床试验级别使用AI是否会导致相同的临床发现(例如相似的治疗效果估计、相同的研究结论)?

2 方法

2.1 数据

在本工作中,我们使用来自两个III期临床研究MEASURE I和PREVENT的X光数据来测试框架的有效性和泛化能力。我们在2.3节中描述的AI分级模型在MEASURE I上进行了训练,MEASURE I和PREVENT验证集的预测用于框架测试,保证了与模型的独立性。

MEASURE I是一项已完成并匿名化的III期试验,用于司库奇尤单抗(一种完全人源抗IL-17A单克隆抗体)治疗axSpA(中轴型脊柱关节炎)患者。MEASURE I包括361名患者,按2:1的比例随机分配到治疗组和对照组。对照组患者开始时接受安慰剂,然后根据其反应状态在16或24周后转为活性治疗。每位患者安排了两次(或三次X光)检查,分别在基线、2年(第104周)和4年(第208周)。在这些检查期间拍摄了侧位颈椎和腰椎X光片。图1中的改良斯托克强直性脊柱炎脊柱评分(mSASSS)由至少两名放射科医生评估,并建立了探索性终点以评估从基线开始的mSASSS恶化情况。

图1显示了mSASSS定义和数据集中的分布。mSASSS评分标准(0-3)基于椎体角结构变化,其中大多数角是正常的(评分0,占81%),而侵蚀/硬化/方形化(评分1)、韧带骨赘(评分2)和桥接(评分3)分别占3%、5%和11%。在本研究中,两年后(基线和第108周X光片之间)mSASSS的恶化被定义为探索性终点,以确定治疗组和安慰剂组之间的治疗效果。由两名放射科医生进行了两次阅读会话。在每次会话中,对每个椎体角进行mSASSS评估,总分通过将24个角的mSASSS值相加计算得出。为了评估评分者间变异性,将两名读者之间总分差异最大的前5%病例提交仲裁。

与MEASURE I类似,PREVENT是另一项在axSpA中使用司库奇尤单抗的试验,但患者群体为非放射学中轴型脊柱关节炎。PREVENT收集了相同的脊柱X光片,并与MEASURE I共享相同的阅读方案。然而,PREVENT在患者群体方面与MEASURE I非常不同,病情明显较轻。事实上,PREVENT中超过90%的患者mSASSS为零,这使其成为测试候选框架泛化能力的理想试验。

2.2 框架

我们的框架(图2)改编了Ng等人的框架来分级脊柱图像。对于每位患者,对两张(或更多)图像进行分级,并使用所有椎体角计算复合评分(mSASSS)。为了尽可能密切地模拟人类过程,我们只比较总脊柱mSASSS,而不是单个椎体水平。在此设置中,图2中的人类双读者(HDR)是当前的临床应用,而另外两个(AI独立阅读IR和AI支持阅读SR)是我们在此工作中测试的实验方法。

如果AI模型无法预测mSASSS,这种缺失将自动触发分歧,需要至少两名人类读者的参与。此外,我们在后续部分探讨了在这些框架中使用不可靠AI模型,以评估结果的稳健性。

图2展示了实验框架实现,我们将金标准人类双读者与两种AI方法进行比较,即AI作为独立阅读者(IR)或支持阅读者(SR)来评估X光图像中的脊柱疾病状态(改良斯托克强直性脊柱炎脊柱评分-mSASSS)。在每个框架的末尾,将每个读者的评分汇总以获得共识mSASSS。两个AI框架之间的一个关键区别是,AI-IR将AI评分包括在共识mSASSS中,而AI-SR不包括。

2.3 模型

我们开发了一个分类管道,该管道结合了椎体单元分割和mSASSS分类,作为我们的AI读者(图3)。使用nn-UNet和mask-RCNN的集成模型VertXNet用于椎骨分割和标记。所有椎体单元都基于分割结果提取,然后每个椎体单元将传递给由两个ResNet 152组成的分层分级系统,用于预测mSASSS。

VertXNet已成功从MEASURE I中的282名患者中提取了带标签的椎体单元,mSASSS由图3中的自动分级管道预测。无法从管道预测的mSASSS被视为缺失。所有mSASSS均由未使用其原始评分训练的模型预测。该分级模型达到了65%的平衡准确率,这是在每个类别上获得的召回率的平均值。

3 结果

在本节中,我们从多个角度比较了图2中提到的三个框架,包括成本、稳健性和研究结果。我们在2.3节中描述的AI模型作为此比较的基础。为了评估这些框架在效果较差模型下的稳健性,我们还使用随机和天真模型测试了它们。随机模型以相等概率预测0到3之间的mSASSS评分,而天真模型将所有mSASSS评分分配为0。

3.1 成本

当仅依赖人类读者时,结果表明100%和48.92%的病例分别需要第二个人类读者和仲裁,如表1所示。对于AI模型,当AI用作独立读者时,分别为0.0%和59.83%,当用作支持读者时,分别为59.83%和39.17%。当比较使用训练模型的框架之间的成本时,两种AI方法(AI-IR、AI-SR)都比单独的人类(HDR)更高效,因为它们需要更少的患者数据集由人类读者阅读。

当使用极端情况(天真和随机模型)对框架进行压力测试时,我们观察到AI-SR与单独的人类成本相匹配——这是框架安全失败所预期的。

在实践中,仲裁可能比初始阅读成本更高,因为它通常需要额外读者的参与或更高的经验水平。我们研究了仲裁成本明显高于第二人类读者的情况,成本范围从一倍到五倍。我们的发现表明,两种AI方法 consistently 优于人类读者。值得注意的是,当仲裁成本达到第二人类读者的三倍时,AI-SR超过了AI-IR,并随着成本比率的增加继续保持其优势。

3.2 模型稳健性

框架的首要质量是稳健性,这意味着使用AI不应改变疾病评估。对于训练模型,所有方法对疾病负担产生了相似的估计值(10.01、10.09和9.81)。但我们发现AI-IR对于极端情况(即随机模型)并不稳健,产生18.90,几乎是真实估计值的两倍。这是因为mSASSS共识也使用AI评分,导致估计值出现偏差。另一方面,当使用天真模型(仅预测主要类别,例如0)时,框架更接近人类,主要是因为数据集主要包含mSASSS椎体角为零的患者(约80%)。

3.3 治疗效果

除了成本和框架的稳健性外,验证使用这些框架得出的结论是否与人类读者一致也至关重要。在我们的研究中,从基线到2年的mSASSS恶化被用作终点来估计治疗效果。从表2可以明显看出,恶化的结论在研究结果和不同框架之间是一致的。尽管对照组显示比治疗组更严重的恶化,但由于标准误差较大,差异在统计学上并不显著。

所有框架都可以产生与试验结果相同的关于假设检验的统计结论。当AI作为独立读者时,它在两个臂的估计上表现出系统性偏差。然而,当AI作为支持读者时,它与试验结果相当吻合。

3.4 泛化能力

为了评估AI辅助框架在新试验中的潜在益处和稳健性,我们利用了PREVENT试验。考虑到与MEASURE I相比患者人群的差异,仅在MEASURE I上训练的AI分级模型在PREVENT试验上表现不佳。然而,我们的研究发现,所有框架都一致得出了与试验结果相同的结论:两个臂之间的恶化没有显著差异。

表格和图表展示了将AI用作支持读者(AI-SR)的框架在相同领域中其他人群的泛化能力。相比之下,AI-IR未能很好地泛化到新试验,在表格中显示出高估偏差,在图10中显示出不同的进展概率曲线。另一方面,AI-SR与HDR和试验结果的所有方面都紧密一致。这证明AI辅助分级框架,特别是AI-SR,在新试验中是有效和可靠的,即使人群不同。

4 讨论

在本研究中,我们调查了AI在临床试验中的潜在应用。我们表征了一个有效的AI框架应该满足三个关键标准:准确性、效率和稳健性。首先,AI框架应该产生与仅由人类评分者获得的试验结果相同的结果。其次,与仅由人类评分系统相比,AI框架应该节省时间和金钱。最后,即使模型性能不理想,AI框架也应该提供一致的评估。

我们的研究发现,作为支持读者的AI(AI-SR)方法最适合临床试验,因为它满足所有模型类型的所有标准。该框架在准确性方面表现出色,因为它将AI置于人类监督之下,确保安全并通过减少所需的人类读者数量来提高效率。它还提供了疾病状态和治疗效果的准确估计。

一个关键发现是,我们不需要高性能模型就能在保持准确结果的同时看到效率方面的提升。像集成方法一样,它不需要强大的单个评分者(无论是AI还是人类),但在最终输出上仍然表现一致。在实践中,当样本量小或结果不平衡时,只能实现表现一般的模型。在这种情况下,建议AI作为支持读者,在最终分级中权重较低。

据我们所知,这是第一项研究AI辅助分级框架对临床环境中临床试验治疗效果和结论评估影响的研究。这一发现特别重要,因为它强调了为评估临床试验结果选择正确AI框架的重要性。

【全文结束】

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。