智能体时代的临床人工智能监管:面向医疗健康的无约束非确定性临床软件系统Regulation of clinical Artificial Intelligence (AI) in the Age of Agents: Unconfined Non-Deterministic Clinical Software (UNDCS) systems for healthcare | npj Digital Medicine

环球医讯 / AI与医疗健康来源:www.nature.com新加坡 - 英语2026-03-05 17:41:15 - 阅读时长8分钟 - 3825字
本文系统探讨了智能体时代临床人工智能监管面临的新挑战,聚焦无约束非确定性临床软件(UNDCS)系统的特殊风险。作者回应Weissman等学者关于大型语言模型(LLMs)生成医疗设备级输出应受监管的提议,指出部分考量已被FDA等现有SaMD指南覆盖,但针对不锚定特定临床适应症的"通用型"临床决策支持系统(CDSS),亟需建立新型监管框架。文章创新性区分受限与无约束AI系统,阐明UNDCS因开放语义空间和非确定性输出导致的幻觉风险,提出红队测试、防护栏、智能体间调解及受限检索增强生成等风险缓释策略,并呼吁监管范式从标签驱动转向过程监管,以平衡技术创新与患者安全,为生成式AI在医疗健康领域的安全应用提供系统性治理路径。
医疗健康临床人工智能无约束非确定性临床软件临床决策支持SaMD通用型CDSS监管风险缓解幻觉红队测试防护栏智能体间调解RAG
智能体时代的临床人工智能监管:面向医疗健康的无约束非确定性临床软件系统

摘要

在Weissman等人近期发表的文章中,研究者考察了基于人工智能(AI)的大型语言模型(LLMs)生成的临床决策支持(CDS)输出在多大程度上符合受监管医疗器械的标准,并呼吁为基于LLM的CDS系统制定新法规。本文回应了这些提议,指出现有指南已涵盖部分考虑因素,无需新框架,同时也强调了针对不针对特定临床适应症的"通用型"CDSS制定新法规的必要性。我们通过概述区分受限与无约束AI系统的文献来阐释这一监管缺口。此外,我们还概述了可能需要新法规的具体领域,以及可纳入新指南的风险缓解策略。

Weissman等在《npj Digital Medicine》的研究表明,基于LLM的CDS输出可能符合医疗器械监管标准,本文建议部分考量因素已被现有指南覆盖,无需新框架。同时,我们概述了可能需要新法规的具体领域及可整合的风险缓释策略。

基于研究识别的监管缺口扩大法规范围的呼吁

首先,作者呼吁制定法规以细化针对临床医生或非临床终端用户的LLM CDS标准。幸运的是,这一考量已融入美国食品药品监督管理局(FDA)最新的作为医疗器械的软件(SaMD)指南中,该指南与欧盟、澳大利亚和新加坡的SaMD监管框架保持一致。目前,具有设备功能的CDS系统(CDSS)需根据国际框架按风险级别接受严格监管审批,而满足全部四项非设备FDA标准的系统可获豁免。尽管如此,所有CDSS(无论底层技术如何)均属于更广泛的SaMD框架范畴,2025年更新版进一步细化了基于预期用途和终端用户(如临床医生或非临床人员)的合规要求。

其次,无论采用生成式人工智能(GenAI)、基于LLM或其他技术,所有CDSS均受现行SaMD指南约束。这一原则在数字健康领域已被广泛接受,反映在我们及他人的出版物中。例如,在APPRAISE研究中,我们汇集了1000多名国际专家对眼科领域基于FDA-SaMD标准的CDSS工具的临床接受度共识。因此,可能无需为基于LLM的CDSS专门制定新指南。

第三,我们认同作者关于为不针对特定临床适应症的"通用型"CDSS制定新法规的必要性。阐释这一监管缺口需区分受限与无约束AI系统。早期流行的CDSS包含受限的确定性临床软件(DCS)算法,具有已知、固定的输入数据-输出标签(IDOL)关系。这些系统从预定义的有限标签生成输出,例如二元疾病分类器(存在/不存在)或类别化风险分层(低/中/高)。现有监管指南通过相对较小、特征明确的数据集评估即可充分应对。随后出现的受限临床软件(CCS)采用深度学习(DL)等技术改进未知IDOL关系的处理。这些CCS因输出标签范围受限而表现出可预测的变异性,仍可通过扩大数据集基于现有FDA-SaMD指南进行评估。尽管输出在某些方面受到约束,但未必安全,因此需要大量测试和保障措施,如后处理限制或防护栏。

相比之下,无约束AI系统(如使用基于Transformer的LLM的通用CDSS)针对非结构化输入提示在开放语义空间中运行。这种设计引入了独特风险,包括错误和明显的"幻觉"。幻觉属于语义错误,可视为LLM工程设计的固有特性,因为这些模型是对大量训练材料的近似小规模表示,本质上采用某种数据压缩形式。在无约束系统中,可进一步根据是否包含非确定性组件进行区分。多数LLM基于Transformer架构,本质上是确定性的(相同输入始终产生相同输出)。然而,非确定性可能通过"温度"等方法(涉及在Transformer堆栈顶层随机选择logits)被(有时是有意)引入,或由浮点计算不精确性导致。部分当代LLM采用温度设置以增强自然、类人语言生成。这种随机性产生难以约束的概率采样输出的不可预测随机谱系,正如Weissman等人的研究所示。这限制了基于大型数据集的详尽测试进行的传统数据集驱动评估的可行性。加之训练数据被大规模压缩到相对较小的模型中,形成了可称为非确定性的行为特征。

因此,我们建议可能需要为使用GenAI或其他AI技术开发的新型通用SaMD解决方案制定新类别法规,这些方案用于通用CDS,我们将其称为无约束非确定性临床软件(UNDCS)。这可适用于所有此类UNDCS技术的医疗相关应用,从医疗管理到健康促进,不仅限于CDSS。这些法规可设定纳入潜在保障措施的标准,如红队测试、防护栏、智能体间调解和受限检索增强生成(RAG)。每种方法在应对UNDCS独特风险方面各有优劣(图1),下节将详述。无约束确定性系统可受益于专门针对关键故障模式或代表性不足临床场景设计的红队测试用例,以及多智能体系统(MAS)实现,后者通过共识机制降低错误频率。UNDCS还可通过重复采样的广泛测试及LLM作为评判者的循环进行裁决来改进,以跨多轮运行评分和验证聚合输出的有效性,尽管存在一定局限性。

图1:促进无约束非确定性临床软件(UNDCS)对齐的潜在保障措施优势与劣势

描述:本图概述了可用于促进无约束非确定性临床软件(UNDCS)与预期用途对齐的潜在保障措施优势与劣势,包括红队测试、防护栏、智能体间调解和受限检索增强生成(RAG)。

临床生成式人工智能等无约束非确定性临床软件(UNDCS)的风险缓释

首先,红队测试通过越狱、提示注入和对抗性攻击等技术,在实验条件下模拟挑战性场景对AI系统进行压力测试。这也为临床医生早期参与传统上由开发者主导的技术评估提供了机会,使他们对UNDCS优势和局限性获得实践洞察。

其次,防护栏是用于过滤不当LLM输出的算法。现有开源框架包括Llama Guard和Guardrails AI,其医疗健康特定实施在应对这些风险方面展现出前景。然而,这些系统基于计算方法,无法始终如一地检查非确定性LLM输出的全部谱系。此外,其易受越狱攻击的特性进一步凸显了将此方法与针对对抗性攻击的相关防御措施共同实施的必要性。

第三,RAG通过整合来自额外可信知识源的信息检索来降低风险,使响应基于已验证来源。但其以通用性换取专业性。在源内容领域内效果显著,但在更广泛情境中受限。RAG的潜在局限包括材料过度主导查询的本地语境导致遗漏,从而引发错误响应。

第四,AI最新发展引入了使LLM智能体执行数字功能的软件工作流和实用实现。基于人类反馈的强化学习(RLHF)已成为强大工具,既能从其他模型学习(称为蒸馏过程),又能利用人类反馈(包括目标和安全性对齐方面)催化开放式生成任务进程。然而,单智能体评估的局限包括专业领域挑战和偏见风险,例如自引用偏见(LLM对类似自身模型类型持正面偏向)。智能体间调解可通过MAS架构帮助解决这些局限。这些系统还可通过跨多个检查点的RAG集成进一步增强,并通过纳入基于已验证指南进行确定性推理的神经符号模型提高可靠性。这些方法可帮助确保CDSS输出与预期用途保持一致。

非标签驱动的UNDCS新监管范式需求

鉴于GenAI技术的巨大进步,另一考量是现有监管框架是否仍适用于新型UNDCS。当前法规以标签为驱动,设备分类基于制造商指定的预期用途。这些框架对传统医疗器械有效,因其分发受限于目的驱动应用或持证提供商(本身需符合认证要求并接受持续质量审计)。它们曾有效用于早期DCS和CCS SaMD,这些软件将AI核心"包裹"在带有适当标签的定制化应用层中,由受监管制造商分发。

然而,当今流行的LLM(如ChatGPT、Grok、Claude等)由控制从基础模型到消费者界面整个AI供应链的技术提供商开发,未必详细说明其训练源。这些面向消费者的模型未被与标签和制造商注册挂钩的法规所覆盖。这一监管空白缺乏对终端用户的保护,因为LLM制造商在扩大用户基础规模时仅使用通用免责声明。例如,禁止将LLM用于临床目的的笼统声明不太可能阻止实际使用。

这些LLM如今广泛可及,却缺乏传统SaMD分发途径提供的消费者保护,后者确保适当的用户选择(如基于健康和技术素养)、恰当的照护权限划分(尤其针对临床紧急情况)以及不良事件监测。Weissman等人已证明,在高风险情境中,LLM可能基于不完整的临床信息提供看似可信但不恰当的设备级建议,使终端用户面临严重医疗伤害风险。

随着GenAI技术日益精密,聚焦当下规范的静态法规面临快速过时的风险。近期工作已展示评估和部署非临床LLM应用(如AI文书)的方法。然而,应用于医疗环境的非临床管理工具也可能产生意想不到的临床后果,例如幻觉导致错误文档或诊断标签,进而使下游临床决策中的错误累积,影响医疗索赔并可能提高患者保险费率。因此,未来所有UNDCS的法规可能需要设定风险缓释的可接受标准。特别是对于面向消费者的UNDCS,可能需要内置保障措施,明确将输出限制在非医疗器械用例范围内,除非经过临床试验正式评估并部署持续质量控制。

总之,尽管UNDCS(如LLM)在医疗健康领域的应用可能带来巨大临床效益,但仍需适当保障措施以保护消费者和患者安全。随着UNDCS模糊了预期用途和用户之间的界限,监管机构面临艰巨责任:需采用与所监管技术一样灵活的前瞻性框架,同时不阻碍医疗转型的进步。因此,可能需要建立新的监管范式,以鼓励UNDCS在医疗健康中的安全使用,为公众提供消费者保护,并确保制造商对其商业化软件解决方案负责。

【全文结束】