利用生成式人工智能应对临床试验长期挑战的政策框架A policy framework for leveraging generative AI to address enduring challenges in clinical trials

环球医讯 / AI与医疗健康来源:www.nature.com丹麦 - 英语2025-01-16 00:00:00 - 阅读时长12分钟 - 5706字
本文探讨了如何通过应用特定领域的语言模型(ASLMs)来改进临床试验设计,从而提高试验效率、包容性和安全性,减少资源浪费并加速新药开发过程,同时强调了相关实施策略和挑战。
临床试验人工智能应用特定语言模型ASLMs监管机构卫生技术评估HTA试验设计效率安全性包容性成本效益伦理偏倚数据隐私开源医疗AI训练数据法规验证强化学习DSMBs患者安全性资源节约创新透明度开放科学审计合作协议公私合作
利用生成式人工智能应对临床试验长期挑战的政策框架

能否通过人工智能改进临床试验设计?尽管其在医学中的重要性不言而喻,但超过40%的临床试验涉及有缺陷的方案。我们提出并建议开发用于临床试验设计的应用特定语言模型(ASLMs),分为三个阶段:由监管机构开发ASLMs,由卫生技术评估机构进行定制,最后部署给利益相关者。这一策略可以增强试验效率、包容性和安全性,从而实现更具代表性和成本效益的临床试验。

引言

作为验证新治疗方法的主要工具,临床试验是循证医学和医学进步的核心部分,决定了新治疗干预措施的安全性和有效性,包括药物、医疗器械和临床程序。然而,尽管它们的重要性以及投入的大量资源,Cochrane综述——被视为“金标准”的研究——表明,超过40%的试验由于次优方案而被认为是“浪费”,这种情况被描述为“伦理上、科学上和经济上不可辩护”。最常见的三个缺陷涉及患者和人员的盲法、结果评估的盲法和不完整的结局数据(见表1以获得缺陷的全面概述)。尽管提出了诸如加强培训和定向资助等举措以克服这些缺陷,但实质性进展仍然不足。人工智能(AI)能否帮助解决一些这些长期存在的挑战?

表1 临床试验方案及其相关问题,包括生成式AI的潜在帮助

最近生成式AI的进步,特别是在具有“思维链”能力的大规模语言模型(LLMs)中——即一种涉及生成中间步骤以解决复杂问题的推理方法,类似于人类逐步分解任务或迭代解决问题——为改进临床试验设计提供了有希望的方向。早期研究表明,现有的LLMs可以在识别已发表的随机对照试验(RCTs)中的偏倚风险以及起草RCT协议部分方面达到与人类表现相似的水平。前沿AI模型最近报告在物理、生物和化学问题基准测试(GPQA)中超过了人类博士水平的准确性,在美国数学奥林匹克竞赛(AIME)资格赛中名列前茅,并在编程挑战(Codeforces)中排名前89%。

在这篇文章中,我们提出了两项改进措施,以利用AI潜力增强临床试验设计。首先,我们引入了用于临床试验的应用特定语言模型(ASLMs)的概念。所谓的“应用特定语言模型”,指的是要么是在特定领域数据上微调并增强检索增强生成(RAG)能力的LLMs,要么是专门为改进临床试验而设计的小型语言模型。我们认为ASLMs在这个专业领域中可以显著优于通用LLMs。

其次,我们提出了一种三步政策方法来开发和实施这些ASLMs(图1):

  1. 由FDA和EMA等监管机构开发基础临床试验ASLMs;
  2. 由卫生技术评估(HTA)机构进一步定制这些模型以适应区域背景;
  3. 将监管机构和HTA调整后的模型部署给研究人员和协议开发者。

应用特定语言模型用于临床试验设计

通用LLMs因其训练于广泛多样的数据集而在各种任务中表现出色。虽然这些数据集中可能包含与临床试验设计相关的知识,但这些信息可能与其他更广泛的上下文和不同用途的专业术语和概念竞争。此外,这些数据集可能无法可靠反映最新的监管要求或最佳实践,可能导致过时或不符合规定的建议。通用LLMs容易出现不准确的情况,可能会导致不可靠的评估或忽视伦理问题。

为了解决这些局限性,我们建议使用ASLMs进行临床试验设计。虽然最近的证据表明,通过优化特定领域的提示可以显著提高性能,但我们在这里专注于调整或创建用于临床试验设计的ASLMs。这些模型可以通过几种方法创建,包括在专门数据集上微调现有LLMs,增强它们的RAG能力,或从头开始开发较小的专用语言模型。尽管每种方法都有独特的优势,但我们提倡探索和实施所有这些互补的方法——微调、RAG增强和较小的专用模型——而不是偏向任何单一方法。事实上,最优结果可能来自结合这些技术,例如为较小的专用模型配备RAG功能并在专门数据集上微调。

微调涉及在目标领域特定数据上进一步训练预存的LLM,在我们的情况下,是与临床试验相关的信息。这包括法律和法规文本(如FDA关于良好临床实践和临床试验的规定,欧盟临床试验法规)、临床试验指南文件、监管科学领域知识和与临床试验相关的同行评审文献。这使模型更紧密地符合特定上下文中模式、术语、推理和细微差别的要求,例如涉及临床试验设计,这些术语和概念高度专业化。

为了确保提出的生成式AI系统能够访问并依赖精确和最新的信息,我们建议在微调之外添加RAG。RAG通过将语言模型的输出基于外部、策划的知识库来增强它们。在临床试验设计的背景下,RAG系统可以访问试验协议、法规文件和科学文献的数据库。当被提示时,模型从该数据库检索相关信息并将其纳入响应中,确保准确性和遵循当前标准。这种方法对于需要领域特定知识和精度的任务特别有价值。例如,一个RAG增强版的GPT-4最近被证明在筛选心力衰竭试验患者方面超过了人类专家。该模型被赋予了一个策划的临床笔记数据库,使其能够高效检索和解释复杂的资格标准,如确定症状性心力衰竭。

或者,开发较小的定制语言模型可以提供对训练过程和专门知识的更大控制。这些模型虽然在一般能力上有限,但在特定领域中可以实现与较大LLMs相当甚至更好的性能。例如,一个参数为7B的定制模型,使用医学教科书构建,小到可以在许多笔记本电脑上运行,通过了美国医学执照考试。

较小的定制模型有四个额外的优势。首先是它们能够理解临床试验术语和方法的复杂性,而不受无关数据的干扰。例如,这些模型更有可能理解包含和排除标准的具体含义或围绕患者同意的伦理考虑,从而在协议开发中提供更可靠的指导。第二,较小的模型在训练和推理(即AI部署后的实际使用)中需要较少的计算资源。这种效率减少了能源使用和成本,使更多机构能够使用,包括那些技术基础设施有限的机构。它还促进了更快的迭代和更新,这对于法规和最佳实践不断变化的领域至关重要。第三,通过在安全环境中开发这些模型,机构和监管机构可以严格保护数据隐私。第四,训练数据的受控策划允许减少偏差,可能促进更具代表性的试验设计。

开发和实施应用特定语言模型

所有三种方法——微调、RAG和较小的专用语言模型——都需要高质量的数据才能实现其潜力。许多数据已经公开可用,包括法规文件、科学文献、已发布的试验协议和方法学指导,包括评估数百个已发布试验方法错误的研究。这些材料为开发初始ASLMs提供了坚实的基础,能够改善试验设计。虽然像FDA和EMA这样的监管机构拥有宝贵的附加数据集——包括完整的调查新药申请记录、批准记录,特别是成功和失败的试验协议——行业和学术机构往往是试验设计创新的主要驱动力,可以在此方面发挥主导作用。我们设想一个协作生态系统,其中行业协会、学术中心和监管机构并行工作,各自贡献其独特的优势:行业在减少昂贵的协议缺陷方面的实践经验,学术界的方法论专业知识,以及监管机构的监督专业知识和丰富的相关数据来源。

这些数据可用于开发能够在几个关键领域显著改善临床试验设计的ASLMs。首先,许多临床试验存在可预防的设计缺陷,导致资源浪费和药物开发延迟。监管机构唯一拥有既成功又失败的申请版本,提供了一个丰富的改进数据集。临床试验ASLMs可以在此数据上进行训练,以识别常见陷阱,建议特定治疗领域的最佳试验设计,并预测新协议获得监管批准的可能性。这可以大大提高药物开发过程的效率,减少将新治疗方法带给患者所需的时间和成本(图1)。

其次,临床试验长期以来一直面临某些人口群体代表性不足的问题,这引发了对结果普遍性的质疑。监管机构拥有所有试验申请的人口统计数据,提供了不同治疗领域和试验阶段代表性的全面视图。训练于这些数据的临床试验ASLMs可以分析提议的包含和排除标准,标记潜在偏差,并根据成功的先例建议修改,以增强多样性。这可以导致更具包容性的试验,更好地反映最终使用治疗的人群,从而提高临床研究的伦理地位和科学有效性。

第三,晚期检测到安全问题可能导致试验失败或更糟糕的是已批准药物对患者的伤害。监管机构拥有来自众多药物和治疗领域的试验和上市后监测的全面不良事件数据。ASLMs可以分析这些数据与提议的试验协议,以在开发过程中更早预测潜在的安全问题,建议改进的安全监控计划,甚至推荐最佳样本量以检测罕见的不良事件。这可以提高患者安全性,减少晚期试验失败的风险,并改善新治疗方法的整体收益-风险状况。

虽然一些监管数据涉及保密性问题,但已有成熟的解决方案来管理这些风险。首先,监管机构可以使用具有经过验证的安全标准的企业级AI解决方案——类似于他们现有的企业云服务。或者,专用的ASLMs可以在本地服务器上运行,通过安全API提供访问。最重要的是,ASLMs会学习改进试验设计方法的一般模式,而不是保留或暴露单个试验的敏感细节。这些考虑因素都不是新的,中型企业已经在考虑这些问题的情况下拥抱AI。

使用HTA特定数据调整临床试验ASLMs

最初由FDA和EMA等监管机构开发的临床试验ASLMs可以进一步由卫生技术评估(HTA)机构调整。HTA机构不像FDA和EMA这样的监管机构那样,专注于在其特定的医疗保健系统内评估医疗干预措施的临床和成本效益。特别是,HTA过程是一种基于证据的尝试,旨在确定新或现有健康技术的相对有效性,具体关注某一特定技术相对于其他健康技术的附加值。HTA机构拥有独特的知识和数据集,包括当地医疗保健成本和各自地区的现实世界证据。这些数据源可以用于进一步细化和定制ASLMs,以在相对有效性的背景下改进临床试验评估和证据综合,使用前面提到的所有三种方法:微调、RAG和较小的专用模型(图1)。

图1:开发和实施用于临床试验设计的应用特定语言模型的三步政策方法。

第一步:监管机构使用独特数据集开发初始ASLMs。接下来,HTA机构纳入区域性数据以确保情境相关性。最后,在第三步,最终用户通过持续反馈循环和安全的数据共享机制访问这些工具,以改进试验设计、加快提交并支持循证决策。

分享ASLMs给研究人员、协议开发者和其他外部利益相关者

最初,我们设想临床试验ASLMs主要用于内部由监管机构和HTAs使用,以增强其内部审查流程并提高临床试验的整体质量。然而,这些ASLMs的最大价值可能在于研究人员和临床试验开发者通过安全API或基于Web的界面使用它们来改进其试验设计之前。这可以导致更高品质的初次提交,减少多次修订周期的需求并加速整个药物开发过程。研究人员可以使用这些模型优化其协议的各个方面,包括包含/排除标准、终点和安全监控计划(图1)。此外,这些工具可以帮助资源有限环境中的临床试验赞助商设计更有可能符合监管标准的试验。

一种更具变革性的方法是将底层模型开源,特别是如果它们是从头开始开发或通过对现有开源模型如LLaMA 3.1进行微调/RAG。这种方法有几个优点。首先,它允许更广泛的科研社区参与改进,可能导致AI辅助临床试验设计的快速进展。其次,开源可以实现独立验证和审查,提高对其使用的信任和透明度。第三,它可以促进创新,允许研究人员为特定治疗领域或罕见疾病适应和专业化这些模型。

未来之路

ASLMs有可能实质性地提高临床试验设计的伦理和科学价值。然而,必须解决几个挑战和限制。首先,众所周知,AI系统有可能放大其训练数据中的偏差。鉴于目前缺乏全面的法规来管理和实施医疗AI系统,ASLM开发者和用户必须意识到并解决这一挑战。一种方法是遵循新兴的最佳实践进行医疗AI开发。最近的工作提倡医疗AI系统应通过开放开发提供全面的监督和验证能力,而EU AI法案要求高风险医疗应用的训练数据透明、验证方法明确记录并持续监控。我们的提议ASLMs至少应遵守这些要求,并尽可能遵循开放科学原则。

商业机密信息、隐私和数据保护问题以及训练数据的质量需要仔细考虑。还存在过度依赖AI辅助设计可能导致试验协议同质化,从而抑制创新的风险。此外,该政策的成功实施将需要对能力、基础设施、培训和持续模型维护的投资。

我们承认监管机构开发ASLMs面临的若干实施挑战,包括建立技术专长、获得资金和建立验证协议。这些挑战可以通过战略方法解决:技术专长差距可以通过学术和行业合作弥合,资金可以通过赠款计划或公私合作伙伴关系获得。虽然改进试验设计需要初期投资,但我们认为这不会增加业务风险,而是会减少。设计良好的试验更有可能在存在真实效果时检测到它们,并在治疗无效时更快失败,最终节省资源。早期识别设计缺陷可以防止昂贵的后期失败,使药物开发过程更加高效。鉴于许多必要的训练数据是公开可用的,学术或行业合作伙伴可以开发这些模型的初始版本,然后由监管机构使用其独特内部数据集进行验证和增强。虽然这些挑战是重要的,但它们是可以克服的,对临床试验设计的潜在好处值得必要的投资。

部署后,临床试验ASLMs应定期接受审计,系统地比较AI的建议与监管机构和HTAs的分析和最终决定。然后,AI输出与监管机构决定之间的差异——结合专家人类判断——将用作进一步训练数据,以通过专家人类反馈的强化学习继续改进。

监管机构、HTAs和临床试验家之间的关系已经很复杂。我们设想ASLMs作为增强和促进而非取代人类专业知识的支持工具。领域专家将在训练数据策划、模型验证和持续改进,以及数据安全和监测委员会(DSMBs)的监督功能中保留核心角色。我们目前设想的ASLMs将专注于在既定最佳实践中改进试验设计——帮助避免常见缺陷,优化标准设计元素,并更一致地实施已知的良好实践(见表1)。虽然未来的版本可能能够启用提出新的监督挑战的更具创新性的试验设计,但近期应用旨在创建更易于监控而非更复杂的协议。通过从ASLMs可以明显改进试验设计的具体方面开始,我们可以建立对这些工具的信心,同时展示它们在支持而非取代人类专业知识方面的价值。

我们提出的三步方法来开发和实施ASLMs有可能提高临床试验的效率、质量和伦理标准。通过利用监管机构、HTAs和研究人员的独特数据集和专业知识,我们可以创建更强大和适应性的临床试验生态系统。这种方法可以导致更具包容性和代表性的试验,更快的药物开发时间表和提高的患者安全性。

数据可用性

本研究未生成或分析任何数据集。


(全文结束)

大健康
大健康