人工智能算法预测卵巢癌患者完全手术减瘤后无肉眼可见病灶及生存率的诊断准确性:系统评价和荟萃分析(PDF) Diagnostic accuracy of artificial intelligence algorithms to predict remove all macroscopic disease and survival rate after complete surgical cytoreduction in patients with ovarian cancer: a systematic review and meta-analysis

环球医讯 / AI与医疗健康来源:www.researchgate.net伊朗 - 英语2025-01-19 00:00:00 - 阅读时长12分钟 - 5758字
本文系统评价和荟萃分析探讨了人工智能算法在预测卵巢癌患者完全手术减瘤后的无肉眼可见病灶及生存率方面的准确性,结果显示人工智能在预测这些结果方面具有较高的准确性,优于传统统计方法。
人工智能完全手术减瘤卵巢癌预测结局总生存期无肉眼可见病灶住院时间重症监护病房机器学习人工神经网络系统评价荟萃分析PRISMA异质性发表偏倚Egger检验AUCCharlson合并症指数外部验证不平衡数据临床结局癌症预测术后并发症
人工智能算法预测卵巢癌患者完全手术减瘤后无肉眼可见病灶及生存率的诊断准确性:系统评价和荟萃分析

背景:完全减瘤(CC)在卵巢癌(OC)中与更好的预后相关。CC后的结局由多因素和相互关联的原因引起,可能无法通过传统统计方法预测。人工智能(AI)可能更准确地预测这些结局。本系统评价旨在确定AI在预测卵巢癌患者CC后的结局方面的准确性,与传统统计方法进行比较。

方法:我们检索了PubMed、Scopus、Google Scholar、Embase和Web of Science数据库,使用MeSH术语查找2015年初至2024年2月期间研究AI在预测上皮性卵巢癌(EOC)CC后结局作用的研究。结局包括总生存期(OS)、无肉眼可见病灶(R0)、住院时间(LOS)和重症监护病房(ICU)入院。本系统评价基于PRISMA指南进行。使用I²检验评估研究间的异质性。Egger检验用于检查发表偏倚。

结果:共纳入10项研究(3460名参与者)。3项研究的汇总估计显示,AI预测OS的准确性为(均值:69.64%,95%置信区间:66.50, 72.78%,I²:0%)。4项研究的汇总估计显示,AI预测R0的准确性为(均值:80.5%,95%置信区间:71.46, 89.6%,I²:47.9%)。一项研究调查了AI在预测ICU入院、尿路感染(UTI)和LOS方面的应用,AI预测这三种结局的AUC约为90%。

结论:AI可能准确预测卵巢癌患者CC后的结局。大多数研究表明,人工神经网络(ANN)和机器学习(ML)模型在预测术后结局方面优于传统统计方法。

关键词:人工智能,完全手术减瘤,卵巢癌,结局,预测

介绍:

卵巢癌(OC)是第八种最常见的妇科癌症,也是最致命的一种,多数患者在晚期被诊断出来。绝大多数(90%)卵巢肿瘤起源于上皮细胞,并相应地被称为上皮性卵巢癌(EOC),尽管一小部分起源于生殖细胞或性索间质细胞。每年有超过300,000名女性受到影响,约152,000名女性死于卵巢癌,显示出该疾病对女性健康和生存的重大威胁。根据GLOBOCAN研究,预计2012年至2035年间卵巢癌病例将增加55%,死亡率将增加67%。

细胞减灭术和铂类化疗是目前卵巢癌的一线治疗。在晚期卵巢癌的管理中,通常采用两种主要方法:初次减瘤手术和化疗后的间隔减瘤手术。然而,CHROUS试验的结果表明这两种方法的整体生存结局相似。因此,完全细胞减灭(CC)至关重要,意味着手术细胞减灭后肿瘤床中无肉眼可见的残留肿瘤细胞。

此外,手术成功率取决于外科医生的经验、技能和哲学理念。例如,AI可用于监测质量改进和提供现代卵巢癌护理。准确分类良性与恶性卵巢肿瘤,特别是基于多种血液生物标志物开发特定的EOC预测框架,以进行临床分期、疾病负担和预后,是该技术在卵巢癌中最关键的应用。随着技术的进步,AI有望在预测卵巢癌减瘤结局方面发挥重要作用。

AI是定制文本输入算法的宝贵工具。这一功能允许基于合并症等因素预测术后住院时间。然而,其在图像处理中的应用面临挑战。在初次手术或间隔减瘤期间的完全细胞减灭评估依赖于CT扫描或腹腔镜评估,需要大量的计算能力进行高分辨率图像分析。此外,快速连接到数据中心对于高效传输和处理图像至关重要。当前的技术限制不允许立即通过图像处理预测减瘤。需要卷积神经网络来分析图像并预测适合减瘤的疾病区域。克服这些技术障碍对于AI在此领域的进一步发展至关重要。

尚未进行全面研究,评估AI证据在预测卵巢癌患者细胞减灭手术结局中的作用。因此,本系统评价旨在确定AI在预测卵巢癌患者CC手术后结局方面的当前准确性,与传统统计方法进行比较。

方法:

文献检索:

在这项系统评价中,我们回顾了所有观察性和诊断准确性研究,这些研究调查了2015年初至2024年2月期间AI在预测卵巢癌患者CC后结局的作用。本研究使用了PRISMA(系统评价和荟萃分析优先报告项目)清单。

PICO(人群、干预、比较和结局)格式决定了搜索数据集的MeSH术语。两位研究人员分别搜索了PubMed、Scopus、Google Scholar、Web of Science和Cochrane Library数据库。最后一次搜索于2024年2月10日进行。搜索使用了以下MeSH术语:((“卵巢癌” OR “卵巢肿瘤” OR “卵巢新生物”) AND (“完全细胞减灭” OR “手术/细胞减灭” OR “减瘤”) AND (“人工智能” OR “计算智能” OR “机器智能” OR “计算机推理” OR “机器学习” OR “人工神经网络”))。

纳入和排除标准:

我们回顾了所有观察性和诊断准确性研究,这些研究评估了AI在预测卵巢癌患者CC中的作用。研究显示至少有一种AI算法,包括人工神经网络(ANN)、机器学习(ML)、k最近邻(k-NN)、极限梯度提升(XGBoost),用于预测CC。用非英文发表的研究、综述文章、致编辑的信件、实验室或动物研究以及无法获得全文的研究被定义为排除标准。

结局包括AI在预测患者生存、无肉眼可见残留病灶(R0)、住院时间(LOS)和ICU住院方面的诊断准确性。

研究选择和数据提取:

设计了一份清单以基于文献审查提取数据。搜索后,使用Endnote版本20软件清理并去除重复研究。两位独立研究人员首先根据标题和摘要筛选研究。初步搜索发现了1013项研究。然后,排除了921项研究(重复文章(n=274),不符合纳入标准(n=108),用于其他癌症的AI(n=116),与研究目标和问题无关、综述文章、病例报告和非英文(n=288)以及其他原因(n=135))。评估了92项研究的全文。排除了82篇文章,包括超出范围(n=37),无法获得全文(n=14),缺乏细节(n=31)。最终,10项研究被纳入此次系统评价(图1)。

提取的数据包括作者、年份、评估的结局(生存、R0、转移、LOS、总患者数、平均年龄、国家、研究设计、研究期间、使用的AI方法、技术的准确性、置信区间、曲线下面积(AUC)、调整变量和统计分析类型。两位独立研究人员使用Excel软件提取数据。第三位独立研究人员解决了两位研究人员之间的任何差异。

质量评估:

我们使用了预测模型研究风险偏倚评估工具PROBAST工具,这是一种评估预测算法(AI和ML基础模型)领域偏倚风险的合适方法。

统计分析:

OS和R0的诊断准确性报告为汇总估计。汇总AUC估计基于Mantel-Haenszel随机效应模型,报告均值和95%置信区间(CIs)。使用I²检验估计研究和算法之间的异质性。Egger检验用于评估发表偏倚,结果以漏斗图表示。敏感性分析用于评估每项研究对整体结局的个体影响。使用元回归控制研究间的异质性。由于不同研究中不存在发表偏倚,无需使用截断填充分析解决发表偏倚。P<0.05被认为显著。使用Stata 17软件进行分析。

结果:

本系统评价包括10项研究(2,842名患者)。本研究中患者的平均年龄为61.4±4.75岁。根据研究评估清单,大多数研究的质量良好和中等。大多数研究在美国等发达国家进行。七项研究报告了AI在晚期卵巢癌中的应用。研究了AI在预测CC结局(包括OS、R0、理想的LOS、ICU入院和CC手术后尿路感染)中的应用。各研究使用了不同的AI方法。五项研究使用了ML方法。三项研究基于ANN进行。表1报告了本系统评价中纳入研究的特征。

结局:

总生存期

三项研究提供了预测生存的定量数据。汇总估计结果显示,AI预测总体生存的准确性为(均值:69.64%,95%置信区间:66.5, 71.92%)。根据Egger检验结果,未发现研究结果中有发表偏倚(Egger检验t=1.2,95%置信区间:-1.11, 2.04,P:0.087)。

无肉眼可见病灶(R0)

四项研究的汇总估计显示,AI预测R0的准确性为80.5%。研究结果未发现基于Egger检验有发表偏倚(Egger检验t=-4.59,95%置信区间:-14.6, 6.1,P:0.58)。OS和R0结局的研究分布见图4。

其他结局

Laios等人的一项研究估计了ML方法在预测CC患者CCU入院的AUC为95%(93-97%)。Laios等人显示,使用ANN方法预测CC患者LOS的AUC为93%(88-98%)。J Ai等人评估了AI在预测CC后尿路感染(UTI)中的应用,结果表明AI预测UTI的AUC为86%(78-84%)。年龄、BMI、导尿管、导尿次数、失血量、糖尿病和低蛋白血症是最重要的预测因素。

讨论:

本系统评价和荟萃分析通过检查十项回顾性队列研究,包括2,842名患者,显示在过去十年中,AI在治疗卵巢癌患者和预测各种治疗方法的结局,尤其是CC方面显著增加。几乎所有研究都表明,AI具有预测卵巢癌患者CC结局的潜力,而传统统计方法和模型无法预测。根据五项研究的汇总估计,AI预测OS的准确性约为70%,无论使用何种建模方法。ANN和ML在预测卵巢癌患者OS方面具有最高的准确性。AI预测R0的准确率接近80%,远高于其他传统预测模型。AI方法的预测准确性取决于模型中输入变量的数量和质量。S Piedimonte等人显示,基于ML算法的AI在测试模型中预测AOC患者CC的预后AUC为84%,该模型可能有助于决策。

与其他方法和算法相比,ML和ANN模型在预测CC结局方面具有最高应用率,在几乎所有研究中准确率达到70%。AI用于预测CC后尿路感染(UTI)、LOS和ICU入院的研究各有一项,分别为95%、93%和86%,表明AI在预测关键结局方面也具有高准确性。几乎所有研究都表明,年龄、BMI、Charlson合并症指数、手术时机等是预测OS、R0、UTI、ICU和LOS等五个结局的重要因素。

异质性在预测OS时为0%,在预测R0切除时为47.9%。研究间的异质性可以通过样本量、考察变量数量、患者特征和随访模式的差异解释。

我们使用了强大且理论健全的可解释AI方法来评估每个特征在患者预后中的重要性,实时提供解释。这对于提供详细且有价值的定制化见解至关重要。这些解释可以以简洁的视觉格式呈现给妇科和产科肿瘤学家。本研究为广泛的临床审计奠定了基础,旨在评估NHS中的卵巢癌手术。预测卵巢癌是预测治疗结局和为卵巢癌手术提供更多信息给医生的最重要标准之一。根据文献综述,传统统计方法不如AI方法准确。Anshai等人显示,AI方法在预测OS和R0方面比传统统计方法如回归模型更准确。

我们使用了PROBAST工具评估研究,该工具比其他评估工具更适合预测AI模型,评估研究在四个关键方面:参与者、预测因子、结局和分析。它还评估了机器学习模型在现实世界、实时临床环境中的适用性。因此,使用PROBAST工具不仅提高了RoB评估的准确性,还直接解决了审稿人对AI模型的可解释性和解释性的担忧。最近的研究报告指出,PROBAST在ML基础模型方面优于NOS。

2023年,G Parpinel等人在一项叙述性综述中评估了6项研究(1899名患者)中AI在预测上皮性卵巢癌CC方面的准确性。他们的研究仅在两项研究中定性分析了定量生存数据,结果显示AI在预测OS方面具有足够的准确性。在我们的研究中,我们基于三项研究的数据报告了生存预测的准确性作为汇总估计,接近70%。我们还基于四项研究的结果估计了AI预测R0的准确性,显示AI预测R0的准确性为80%。在他们的研究中,他们根据两项研究的数据报告了AI预测R0的准确性在65%到77%之间。他们显示,与逻辑回归模型的数据相比,AI在预测CC结局方面更准确,这与我们的研究结果一致。在一项系统评价中,J Breen等人2023年通过评估AI在卵巢癌组织病理学中的作用,显示AI在预测卵巢癌组织病理学的诊断或预后模型方面比传统模型更准确。然而,结果具有高度异质性,应谨慎解读。在我们的研究中,大多数研究质量较高,异质性率较低。

2022年,WT Stam等人在一项系统评价中评估了AI在预测接受重大腹部手术患者术后并发症中的作用。他们显示,AI算法可以准确预测术后并发症,证实了我们的研究结果。尽管这些算法具有高准确性,但他们报告说这些算法应进行内部和外部测试和验证。

使用AI方法预测临床结局,尤其是癌症,并非没有局限性。准确估计AI方法的结局需要更多的变量和更严格的疾病标准,这是使用这些方法面临的最大挑战之一,也是AI应用的一个有趣前景。

许多作者指出,除了管理数据不平衡外,机器学习模型的内部和外部验证是必要的前提条件。外部验证对于确保机器学习模型在未见过的数据上的性能稳定性至关重要。只有经过外部验证后,才能确定其普遍性和临床实践中的适用性。然而,创建一个外部验证的测试集可能会减少训练数据,导致丢失重要的趋势,从而增加模型错误。Grass等人建议,机器学习模型应使用来自个别机构的数据进行开发,以实现最佳预测性能。然而,建议使用外部数据集或新队列评估模型的性能以增强其普遍性。这种方法提供了更大的信心,即模型能够在未用于训练的数据上表现良好,因为这些数据是由不同研究人员收集和记录的,可能具有与训练数据不同的特征。

优化数据集对于开发AI方法至关重要。医学研究经常遇到不平衡数据,这是由于临床终点(如死亡率、OS和R0)的罕见发生。为了避免训练集中没有事件的情况,不平衡数据必须在模型训练期间得到解决。一个在不平衡事件分布上训练的模型将导致一个不实用或不可用的预测模型,因为它必须充分训练或过度训练以预测事件。如果之前描述的要求在日常临床实践中得到仔细实施,基于AI的预测模型可以显著改变和改善术后结局。

本荟萃分析中最初包含的研究可能是在具有特定特征的特定人群中进行的,这可能放大了选择偏差的作用。使用Egger检验评估了研究中的发表偏倚,发表偏倚并未显著影响结果。然而,初始研究中可能未估计到的几个残余混杂因素可能会影响结果。通过设计前瞻性研究并纳入大量影响最终结果的变量来评估使用AI方法对临床结局预测的影响,可以帮助控制偏差和混杂因素,从而更准确地估计结果。


(全文结束)

大健康
大健康