摘要
引言
将人工智能应用于增强超声引导区域麻醉的临床实践正日益引起临床医生、研究人员和行业的兴趣。该领域研究缺乏标准化报告阻碍了结果的可比性、可重复性和整合性。我们的目标是开发一个基于共识的报告指南,用于评估区域麻醉中超声扫描的人工智能应用研究。
方法
我们遵循EQUATOR网络推荐的方法来开发报告指南。通过文献回顾和专家咨询,我们生成了初步的候选报告项目清单。随后进行了一项国际多学科改良德尔菲过程,涉及来自临床实践、学术界和行业的专家。进行了两轮专家咨询,在此过程中,参与者评估了每个项目是否应纳入最终报告指南,随后进行在线讨论。
结果
共有67位专家参与了第一轮德尔菲调查,63位参与了第二轮,25位参与了圆桌共识会议。GRAITE-USRA报告指南包含40个项目,涵盖了区域麻醉中超声扫描人工智能研究报告的关键方面。具体项目包括超声采集协议和操作者专业水平,这些在现有AI报告指南中未被涵盖。
讨论
GRAITE-USRA报告指南为区域麻醉中超声扫描的人工智能相关研究提供了一套最低限度的推荐标准。其采用将促进一致的报告标准,增强透明度,提高研究可重复性,并最终支持将证据有效整合到临床实践中。
引言
超声引导区域麻醉利用关键解剖结构和插入针头的实时可视化,促进局部麻醉药精确沉积在特定神经周围或筋膜平面内,从而提供镇痛或麻醉效果。与电神经刺激定位方法相比,超声引导提高了外周神经阻滞的安全性和有效性[1]。在中枢神经轴向技术中也显示出益处[2]。
人工智能(AI)是计算机科学的一个领域,使计算机能够执行传统上与人类智能相关的任务[3]。最近的几项研究展示了AI应用于超声扫描和超声引导区域麻醉的案例[3, 4]。目前可用的AI应用包括突出显示关键图像特征、标记解剖结构以及识别最佳针头插入点[4]。然而,在评估医疗保健中基于AI的设备(包括超声引导区域麻醉)的研究报告方面存在实质性差异[4, 5]。这些不一致阻碍了严格评估、结果可重复性、类似技术的比较、目标受众的理解,以及最终将AI技术安全适当地整合到临床实践中的能力[6]。已开发了几种特定于AI的报告指南,以提高不同研究设计和临床专业领域的一致性和透明度。这些包括用于个体预后或诊断的多变量预测模型的透明报告(适用于人工智能)(TRIPOD+AI);医学影像中人工智能的检查清单(CLAIM);以及适用于人工智能的试验报告统一标准(CONSORT-AI)[7-9]。然而,这些指南中没有一个专门针对评估超声引导区域麻醉中AI技术的关键方面,例如超声扫描协议的描述、解剖特征选择策略以及建立参考标准的专家的专业水平。
本研究的目的是为评估应用于区域麻醉中超声扫描的AI技术的研究制定报告框架。通过改良德尔菲过程,我们寻求在这一快速发展的领域中,获得国际多学科利益相关者的共识,以建立标准化的报告框架。
方法
我们成立了一个指导小组来监督报告指南的开发过程。该小组由在超声引导区域麻醉、德尔菲共识方法学、人工智能、报告指南开发和学术出版方面具有专业知识的成员组成(XZ, JF, DH, GC, MW和JB)。
对EQUATOR网络数据库的搜索确认没有类似的指南正在开发中[10]。此后,该项目在EQUATOR网络注册为报告指南倡议[11]。随后,该指南根据EQUATOR网络的方法学框架开发[10]。关键术语的定义见在线支持信息附录S2。根据牛津大学和英国健康研究局决策工具的确定,不需要伦理批准(见在线支持信息附录S3和S4)。
通过审查已发表文献并在指导小组内进行反复咨询,制定了一个全面的候选项目长清单。最近一项关于医疗保健中基于AI工具的报告指南的系统综述被用来识别现有指南[12]。此外,我们于2024年5月30日在EQUATOR网络上使用"人工智能"、"机器学习"和"深度学习"等术语进行搜索,以捕获系统综述中未包含的相关AI报告指南。正在开发中的指南未被纳入考虑范围。
共识别出33个报告指南[7-9, 13-42]。其中,11个是亚专业特定的,不适用于区域麻醉,因此未被纳入[32-42]。从剩余的22个相关指南[7-9, 13-31]中,由两名研究者(YZ, APLM)独立提取并分类报告建议,并由第三名研究者(MT)进行仲裁。第四名研究者(JF)监督这一过程,以确保一致性、适当分组和完整性。结果项目经过指导小组三轮反复审查。如果项目与AI应用评估相关并适用于超声引导区域麻醉,则予以保留。如果项目重复;高度亚专业特定且与超声引导区域麻醉无关;或超出范围(例如,仅涉及模型开发、模型架构或模型训练而非评估),则不包括在内。由于此前没有针对超声引导区域麻醉的报告指南,因此根据需要确定并纳入了特定考虑因素和空白点。基于此过程,生成了43个针对区域麻醉中超声成像AI应用的定制候选项目长清单。该长清单(见在线支持信息附录S5)按照项目将出现的稿件部分进行组织,并构成下文所述的改良德尔菲过程的基础。
指导小组实施了改良德尔菲过程[43],采用基于区域麻醉中近期德尔菲研究的方法学[44-48]。本工作根据德尔菲研究报告的既定指南进行报告[49]。
邀请国际专家组成GRAITE-USRA工作组,参与在线德尔菲调查,对候选项目进行投票、完善项目措辞并提出额外项目。指导小组通过结构化方法确定并联系专家,以确保所有相关利益相关者群体的代表性,并促进不同学科、地理区域和专业背景的多样性。选择标准包括相关出版物的作者身份、在该领域的公认专业知识、专业网络内的推荐以及认可学会的提名。德尔菲小组包括来自以下领域的利益相关者:具有超声引导区域麻醉亚专业专长的执业麻醉师;包括期刊编辑和临床医学、医学影像、生命科学、人工智能、统计学、计算机科学和工程研究人员在内的学术出版和科学传播;以及由在医疗保健AI领域活跃或开发具有AI功能的超声引导区域麻醉设备的商业实体代表组成的行业。
虽然认为商业代表对于平衡利益相关者参与很重要,但要求所有专家声明潜在的利益冲突。这些由指导小组记录并仔细审查。为确保透明度和观点多样性,记录了包括性别、执业国家和专业角色在内的详细人口统计信息。在正式邀请前,指导小组验证了每位德尔菲参与者的专业知识和经验。同意参与的专家获得了研究摘要,详细说明了研究的目标和范围、研究团队的联系信息、参与说明和调查链接。德尔菲过程不提供参与的财务激励。更多详情见在线支持信息附录S1。
德尔菲轮次使用Google Forms(Google,美国加利福尼亚州山景城)在线以英语进行,每位参与者独立完成调查。为保持保密性,所有回复在数据分析前匿名化。为每轮在线调查投票设定70%的目标回复率。在第一轮之前,对六名包括麻醉师、学者和行业代表在内的人员进行了试点调查,以评估可用性和内容。这些人员不属于后续德尔菲小组,其回复未包含在最终分析中。
德尔菲参与者被要求使用问题表述评估每轮中的候选项目:"[候选项目]是否应包含在报告指南的[部分]中?" 候选项目按相关稿件部分分类,如"标题"、"摘要"、"方法"、"结果"和"讨论"。小组成员被要求使用四点李克特量表对每个候选项目进行评分:1-肯定包括;2-可能包括;3-可能排除;4-肯定排除。获得≥75%回复为"肯定包括"的项目被采纳并纳入最终报告指南,不再包含在后续轮次中。对于超过50%回复为"可能排除"或"肯定排除"的项目,被视为专家共识拒绝,并从后续轮次中移除。剩余项目保留用于进一步的德尔菲轮次。在每个阶段,德尔菲小组成员可以提供自由文本评论,以提供额外见解或建议新项目。每轮后,指导小组审查定量结果和定性反馈,根据需要修改候选项目或引入新项目,以反映专家建议。将匿名结果(包括自由文本回复和指导小组决定)与所有德尔菲小组成员共享,以确保透明度并鼓励进一步参与。根据专家认可程度,计划最多进行三轮德尔菲调查,随后进行最终圆桌讨论,与专家小组确认结果,从而结束该过程。然后将最终指南连同研究稿件分发给所有贡献者以获取反馈和批准。
结果
2024年6月至8月期间,确定了70位专家并接受了参与改良德尔菲过程的邀请:23名麻醉师;24名来自学术界和科学出版界;23名来自商业部门的代表。德尔菲参与者的特征见表1。
表1. 德尔菲专家的特征。数值为数量(比例)。
| 特征 | 第一轮 (n = 67) 2024年10月14日至11月3日 | 第二轮 (n = 63) 2024年11月18日至12月8日 | 圆桌会议 (n = 25) 2025年2月7日 |
|---|---|---|---|
| 性别 | |||
| 女性 | 20 (30%) | 16 (25%) | 7 (28%) |
| 男性 | 47 (70%) | 47 (75%) | 18 (72%) |
| 当前主要居住和工作地理位置 | |||
| 非洲 | 3 (5%) | 2 (3%) | 2 (8%) |
| 亚洲 | 6 (9%) | 6 (10%) | 2 (8%) |
| 欧洲 | 33 (49%) | 31 (49%) | 18 (72%) |
| 北美 | 20 (30%) | 19 (30%) | 2 (8%) |
| 大洋洲 | 4 (6%) | 4 (6%) | 0 |
| 南美 | 1 (2%) | 1 (2%) | 1 (4%) |
| 专业领域 | |||
| 具有区域麻醉专长的麻醉师 | 23 (34%) | 22 (35%) | 12 (48%) |
| 学术出版和科学传播 | 24 (36%) | 22 (35%) | 10 (40%) |
| 行业 | 20 (30%) | 19 (30%) | 3 (12%) |
第一轮德尔菲调查由67位专家完成(96%回复率)。共17个候选项目达到预先设定的共识阈值,被接受纳入最终报告指南。根据专家自由文本评论,三个候选项目的措辞被修改以提高清晰度,并引入了三个新候选项目以解决额外考虑因素。没有候选项目被拒绝,留下29个项目供第二轮德尔菲调查评估。
第二轮德尔菲调查由63位专家完成(94%回复率)。另外六个候选项目达到共识阈值并被接受纳入最终报告指南,留下23个候选项目长清单供进一步考虑。本轮未拒绝任何候选项目。根据专家自由文本评论,21个项目被修改以提高清晰度并与专家反馈保持一致。
鉴于第一轮和第二轮之间项目认可的差异极小,指导小组认为第三轮德尔菲调查不太可能产生显著不同的评分模式。因此,在第二轮之后,指导小组决定直接进入圆桌讨论。指导小组还决定将剩余的23个候选项目全部纳入草案指南,以便与德尔菲专家进一步讨论,因为即使是评分最低的项目也获得了71%的综合批准率("肯定包括"或"可能包括")。
邀请所有63位参与过两轮德尔菲调查的专家于2025年2月7日通过Microsoft Teams参加圆桌讨论,25位专家出席。无法出席的专家被邀请提交对临时最终检查表的书面反馈。在圆桌讨论中,审查了46个项目,并鼓励与会者对每个检查表项目发表评论;还解决了不确定的领域。在这些讨论中,四个项目被重新措辞以提高清晰度,六个项目被压缩并与其他项目合并,最终形成了包含40个报告项目的检查表(图1)。随后,指导小组对最终检查表进行了审查,确保指南中的语言一致性和协调性。
图1 显示研究数据进展的流程图。
GRAITE-USRA包含一个40项检查表,专为报告区域麻醉中超声成像的AI应用而设计(表2)。这些检查表旨在报告AI技术的评估,但不规定这些技术的设计或开发方法。
表2. 区域麻醉中超声扫描人工智能技术评估报告指南(GRAITE-USRA)检查表。
| 部分/主题 | 项目编号 | 检查表项目 | 页码* |
|---|---|---|---|
| 标题 | |||
| 标题 | 1 | 说明研究设计,明确指出研究涉及区域麻醉背景下的超声扫描,并表明干预措施包含人工智能或机器学习。 | |
| 摘要 | |||
| 摘要 | 2 | 相关背景、目标、方法、研究类型、主要结果和结论的摘要。 | |
| 引言 | |||
| 背景 | 3 | 描述当前实践、标准护理或代表最新技术水平的方法,并提供研究理由。 | |
| 目标 | 4 | 陈述研究目标或假设。 | |
| 方法 | |||
| 伦理批准 | 5 | 提供伦理批准详情、知情参与者同意(或同意)以及遵守监管要求的详情(如试验注册、数据安全)。 | |
| 研究设计 | 6 | 描述总体研究设计(如随机对照试验、队列研究、前瞻性/回顾性)。 | |
| AI干预 | 7 | 提供AI干预的背景,包括所用AI技术(如深度学习)、模型输出(如分类、预测)和版本。 | |
| 评估阶段 | 8 | 指定评估阶段(如内部验证/测试或外部验证)并提供评估过程的详细信息。 | |
| 参与者 | 9 | 描述研究环境,包括中心的数量和位置。 | |
| 10 | 分别描述扫描操作员和被扫描参与者的资格标准。 | ||
| 人为因素 | 11 | 描述研究设计中考虑的任何人为因素(如为扫描操作员提供培训、AI干预的先前经验)。 | |
| 目标人群 | 12 | 描述预期目标人群(如AI干预的用户和接受者)。 | |
| 数据 | 13 | 描述获取超声数据的协议,包括所用超声机制造商和换能器的详细信息。 | |
| 14 | 描述或证明用于评估的特征选择策略(如阻滞区域、解剖结构)。 | ||
| 结果 | 15 | 定义所有主要和次要结果测量指标,包括如何以及何时进行评估。 | |
| 参考标准 | 16 | 定义并证明用于评估AI干预的参考标准(真实情况)(如涉及的来源或评审者的数量和专业知识)。 | |
| 分析 | 17 | 指定所有用于评估AI模型性能的指标,并解释为何选择这些特定指标。 | |
| 18 | 描述用于评估主要和次要结果的统计分析方法。 | ||
| 样本量 | 19 | 描述如何确定样本量,包括任何计算的详细信息以及使用的临床和统计假设。 | |
| 不良事件 | 20 | 报告如何定义任何不良事件。 | |
| 利益相关者参与 | 21 | 提供有关患者、公众或利益相关者在研究设计、执行、报告、解释或分享研究结果中的任何参与的详细信息。 | |
| 结果 | |||
| 数据 | 22 | 报告数据收集日期。 | |
| 参与者 | 23 | 描述参与者通过研究的流程(如入组、分配干预、随访、分析),如有助于清晰,可使用图表。 | |
| 24 | 报告扫描操作员(如区域麻醉培训水平)和被扫描参与者(如年龄、性别、BMI、种族)的特征。 | ||
| 结果 | 25 | 以与主要和次要结果一致的方式报告结果(包括预先指定的统计分析结果)。 | |
| 缺失数据 | 26 | 报告缺失数据(如丢失的数据、不遵守协议)。 | |
| 不良事件 | 27 | 报告任何不良事件的频率和严重程度。 | |
| 讨论 | |||
| 解释 | 28 | 描述与目标人群(如患者、临床医生和其他潜在利益相关者)相关的AI干预的关键发现。 | |
| 29 | 提供与研究目标相关的结果的一般和平衡解释。 | ||
| 30 | 将发现置于先前研究/当前状况的背景下(包括与其他可用数据的基准测试)。 | ||
| 优势和局限性 | 31 | 讨论研究和AI干预的优势和局限性,包括实施的潜在促进因素和障碍。 | |
| 未来工作 | 32 | 讨论含义和未来工作的潜力。 | |
| 结论 | 33 | 提供研究结论,总结主要发现及其潜在影响。 | |
| 开放科学 | |||
| 遵循标准 | 34 | 遵循社区定义的标准(如关于术语和解剖结构的德尔菲共识建议)。 | |
| 利益冲突 | 35 | 声明所有作者的任何利益冲突和财务披露。 | |
| 资金 | 36 | 指定当前研究的资金来源和资助者的角色。 | |
| 协议 | 37 | 说明可在何处访问研究协议,或说明未准备协议。 | |
| 38 | 报告研究开始后对研究协议所做的任何实质性修改。 | ||
| 数据 | 39 | 提供研究期间收集的数据的可用性详情。如果不可访问,提供原因。 | |
| 代码 | 40 | 提供AI干预和分析代码的可用性详情。如果不可访问,提供原因(如知识产权保护)。 |
-
- 记录报告信息的页码,如果不适用则写N/A。
我们建议在研究规划和稿件准备的早期阶段应用GRAITE-USRA检查表,以确保充分考虑和报告基本细节。为便于实施,在线支持信息附录S6提供了包含每个项目的理由和指导的扩展检查表。该检查表确立了清晰、一致和全面报告研究的最低标准。鼓励作者提供额外相关信息,并根据特定期刊要求,可能在补充材料中报告某些检查表项目或参考研究方案,前提是该方案可公开获取。
指导小组和德尔菲专家按照研究稿件中报告的自然进展顺序组织了项目。然而,项目顺序可能会根据特定期刊格式要求进行调整,因此我们不强制规定每个建议在出版物中的确切位置。为帮助编辑和同行评审过程,我们建议作者提交完成的检查表,明确指出可在哪页找到每个报告项目。对于被认为不适用于特定研究的项目(例如,信息无关),作者应在检查表中输入"N/A"并在稿件中明确承认这一点。如果与特定报告项目相关的信息受知识产权限制保护,指导小组认为在完成的检查表中说明这一点是可以接受的;本指南旨在指导报告,而不是阻止潜在商业参与学术过程。与GRAITE-USRA相关的更新将通过EQUATOR网络传播。为提高可访问性和包容性,欢迎翻译检查表的查询。感兴趣者应联系通讯作者并遵循涉及原始出版物作者的结构化翻译过程,应获得其批准。
讨论
人工智能将在麻醉、重症监护、围手术期医学和疼痛管理中发挥越来越重要的作用[50]。一项关于区域麻醉研究优先事项的国际德尔菲研究将通过新技术推进该专业列为十大优先事项之一[47]。然而,一项审查区域麻醉中超声扫描AI工具研究的范围综述强调了缺乏专门针对该领域AI应用评估的全面报告标准[4]。我们的工作解决了这一差距。通过标准化报告实践,该指南旨在使临床医生能够批判性地评估AI技术、比较和综合试验数据,并指导基于证据的临床实践采用。此外,更清晰的报告可能通过提供对基于AI的超声引导区域麻醉技术的透明评估,为医院设备采购决策提供信息。我们预计该指南对行业利益相关者也将有价值,特别是向监管机构提交报告或向临床受众展示AI技术的商业实体。标准化报告将促进监管机构进行更严格的评估,并改善提供给最终用户的清晰信息。
GRAITE-USRA检查表专为区域麻醉中超声成像的AI应用而设计,解决了该领域中常见和独特的挑战。它旨在补充而非取代现有报告指南,应被视为确保研究清晰、一致和全面记录的最低标准。指导小组一致认为保留可能出现在其他检查表中的更广泛报告项目很重要,因为GRAITE-USRA指南旨在作为独立文件发挥作用,而不是与更一般的报告框架一起使用的额外要求集。因此,GRAITE-USRA检查表包括若干报告建议(如项目4:"陈述研究目标或假设",见在线支持信息附录S6),这些可以被视为通用的,并出现在许多可比报告指南中,包括CONSORT-AI。对于区域麻醉AI相关研究的标准化而言,GRAITE-USRA包含若干完全独特的报告项目,这些可以被视为区域麻醉研究定制的(如项目14:"描述或证明用于评估的特征选择策略(如阻滞区域、解剖结构)",见在线支持信息附录S6),并且通过伴随的解释性文本对许多通用报告项目进行了上下文化,以告知研究人员如何将这些项目正确实施到AI相关的区域麻醉研究中。
本研究的一个显著优势是所有参与者群体都取得了高回复率,反映了不同专业领域的强烈参与。回复率始终较高,麻醉师达到95%(22/23),学者92%(22/24),行业代表83%(19/23),代表所有群体对指南开发的承诺。这种强有力的参与为全面和有代表性的建议集做出了贡献,加强了最终指南的有效性和适用性。
在考虑本项目认可时,一个专业学会注意到的一个问题是通过行业参与引入利益冲突的可能性。由于该领域的财务和技术资源,以及将想法转化为可使用医疗设备所需的商业专业知识,医疗保健AI在各个阶段不可避免地且必要地涉及行业参与。事实上,有人担心该领域将由行业主导,并且可能无法充分满足患者和医疗保健专业人员的需求[50]。因此,指导小组认为商业代表对于确保适当的利益相关者类别代表至关重要。然而,临床界必须在塑造医疗保健AI格局方面发挥领导作用。如果没有积极参与,医疗保健专业人员可能会成为可能不完全符合临床工作流程或患者护理优先事项的技术的被动接受者。展望未来,需要双方加强对话,确保临床共同领导,使行业活动解决现实世界的临床挑战[50]。
本研究的一个局限性是缺乏患者和公众参与。由于这是一个未获资助的项目,没有可用于促进患者和公众参与的资源;然而,我们认识到患者、护理人员和多学科团队参与的价值[51]。未来的指南倡议可能受益于纳入更广泛的利益相关者观点,以增强相关性、可接受性和适用性。另一个局限性是低收入和中等收入国家专家的代表性不足,大多数德尔菲专家位于欧洲和北美等高收入地区。尽管该项目获得了非洲和拉丁美洲专业学会的认可,但来自这些地区的贡献专家数量相对较少。这可能反映了全球范围内在区域麻醉和研究方面获取技术、AI基础设施或已建立专业知识的更广泛差距。在该指南的未来更新中,更大程度地纳入低收入和中等收入国家的观点对于确保全球相关性和公平性将很重要。
另一个考虑因素是德尔菲过程中没有拒绝任何候选项目。这可能反映了为生成初始长清单所采取的严格方法,该方法基于现有报告指南并通过与指导小组的反复磋商进行完善。本研究旨在协调现有报告框架,使其适应区域麻醉中超声扫描AI应用的具体背景。
最后,我们预计该指南需要定期更新,以保持与AI技术进步的一致性。AI发展的快速步伐意味着将出现新的方法论、监管考虑和临床应用,需要不断改进报告标准。未来的指南修订应响应技术和临床变化,确保报告标准继续促进透明、可重复和临床相关的研究。
虽然该指南专门针对区域麻醉中超声扫描的AI应用,但AI正日益集成到麻醉、围手术期医学和疼痛管理的各个方面。应为医疗保健中的其他AI应用开发类似的报告框架,确保临床医生在评估和实施新型AI技术方面处于前沿。除了标准化报告外,未来的共识驱动举措还可以帮助识别将从AI开发中受益的临床实践领域,将研究和创新引向高影响的临床应用。在AI开发中建立临床驱动的优先事项对于确保新兴技术符合现实世界患者护理需求、提高安全性和效率并无缝集成到现有临床工作流程中至关重要。
最终,加强临床医生、研究人员、监管机构和行业合作伙伴之间的合作将是塑造医疗保健AI未来的关键。虽然行业不可避免地将承担大部分医疗保健AI开发工作,但临床医生必须发挥积极的领导作用,确保AI技术的设计和评估对临床医生有意义,符合监管标准,解决现实世界的临床挑战,并增强患者护理。
总之,GRAITE-USRA为报告区域麻醉中超声扫描AI技术的评估提供了一套最低限度的建议。希望该指南将在未来与此领域相关的学术研究中被采用和利用,可能用于商业环境、监管审查,并随着医疗保健AI领域的发展扩展到其他相关领域。
致谢
JSB是GE Healthcare的员工,这是一家生产基于AI的医疗设备的医疗技术公司。他之前曾担任Intelligent Ultrasound的高级临床顾问,获得研究资金和酬金,并担任AutonomUS的顾问。他从比利时区域麻醉协会和沙特阿拉伯利雅得的国王费萨尔专科医院和研究中心获得演讲费。JSB是麻醉师协会遗产、研究和创新委员会;安全、标准、环境和可持续发展委员会;以及麻醉师协会AI工作组的增选成员。MW是《Anaesthesia》的主编和麻醉师协会的董事会成员。GSC是英国国家健康与护理研究所(NIHR)高级研究员。本文中表达的观点是作者的观点,不一定代表NIHR或卫生和社会护理部的观点。JF是RA-UK的当选董事会成员,并接受了来自Intelligent Ultrasound(英国)的酬金。AI被用于提高本稿件的可读性;作者审查并编辑了所有AI辅助内容,并对最终版本承担全部责任。未生成任何统计代码或数据集。未声明外部资金或其他竞争利益。
【全文结束】


