人工智能用于评估身体成分,重点关注肌肉减少症

Artificial intelligence for body composition assessment focusing on sarcopenia

日本英语科学研究
新闻源:Nature
2025-01-08 22:00:00阅读时长9分钟4271字
人工智能身体成分肌肉减少症CT分析骨骼肌质量诊断工具可重复性便利性准确性传统方法AI模型骨骼肌指数SMIDeeplabv3EfficientNetV2-XL交并比灵敏度特异性阳性预测值阴性预测值AUROC手动分割回顾性研究癌症患者多中心验证老年人肌肉力量评估

本研究旨在通过引入一种用于直接计算机断层扫描(CT)分析的人工智能(AI)系统来解决传统方法测量骨骼肌质量以诊断肌肉减少症的局限性。主要关注点在于提高简便性、可重复性和便利性,并评估AI在准确性及速度方面相对于传统方法的表现。研究包括了2011年至2021年间接受CT成像至第三腰椎(L3)水平的3096个病例。随机分为预处理队列和肌肉减少症队列,并进一步随机分割为训练和验证队列,用于创建BMI_AI和Body_AI。肌肉减少症AI利用骨骼肌指数(SMI),其计算公式为(L3处总骨骼肌面积)/(身高)²。SMI通过传统方法测量两次,第一次作为AI标签参考,第二次用于比较。一致性及诊断变化率进行了计算。三个组随机分配,每个病例收集L3前后各10张图像。AI模型用于体区检测(Deeplabv3)和肌肉减少症诊断(EfficientNetV2-XL)在超级计算机上进行训练,评估其每张图像的能力和速度。传统方法在测试队列中的一致率(κ系数)为0.478,在验证队列中为0.236,43%的病例发生了诊断变化。相比之下,AI在两次测量后始终产生相同结果。AI表现出强大的体区检测能力(交并比IoU = 0.93),成功检测所有图像中的仅体区部分。用于肌肉减少症诊断的AI表现出高准确性,灵敏度为82.3%,特异性为98.1%,阳性预测值为89.5%。结论是,传统方法在肌肉减少症诊断中的可重复性较低。开发的肌肉减少症诊断AI以其高阳性预测值和便捷的诊断能力,成为应对传统方法不足的有希望的替代方案。

引言

人工智能(AI)代表了计算机程序中人类智能的体现,广泛应用于我们生活的各个方面。在医疗领域,诊断成像是AI可以提供巨大价值的一个领域。AI具有诊断病理状况的能力,例如在识别胰腺病变方面的有效性。此外,AI的潜力扩展到评估身体成分,包括肌肉质量和脂肪质量,这些因素被认为影响各种疾病的临床结果。肌肉减少症,即与年龄相关的肌肉流失,近年来成为一个焦点。欧洲老年人肌肉减少症工作组(EWGSOP)将其定义为一种综合征,涉及全身性和进展性的骨骼肌质量和力量丧失,与不良后果如生活质量下降和死亡率增加相关。据估计,肌肉减少症影响超过65岁的老年人口的5%-10%,预计到2050年将增加到超过2亿人。其管理成本高昂,美国在2000年花费约185亿美元。随着肌肉减少症作为影像学生物标志物的重要性逐渐被认可,迫切需要易于获取和简单的诊断工具。2018年修订的肌肉减少症诊断算法强调早期发现和干预,侧重于肌肉力量评估。然而,准确评估肌肉数量和质量仍然具有挑战性。尽管CT扫描已成为诊断各种疾病(包括恶性肿瘤)的重要手段,但目前测量骨骼肌质量的方法依赖于手动分割,这种方法复杂且资源密集。

结果

患者背景因素

研究人群由在日本爱知癌症中心诊断的3096名患者组成。研究人群包括2152名男性(69.5%)和944名女性(30.5%)。平均年龄为66.3 ± 9.3岁(表1)。平均BMI为21.4 ± 3.2 kg/m²。平均内脏脂肪量(VFM)为90.5 ± 57.9 cm²,平均皮下脂肪量(SFM)为94.8 ± 58.6 cm²,L3区域总骨骼肌面积(SMA)为109.1 ± 32.2 cm²,平均SMI为42.01 ± 8.88 (cm²/m²)。CT扫描时的背景疾病包括1291例晚期食管癌(41.7%),326例晚期结直肠癌(10.5%),以及1479例计划进行早期癌症内镜黏膜下剥离术(ESD)而无重叠癌症的患者(47.8%),其中包括334例食管癌,822例胃癌和323例结直肠癌。

表1 患者特征

| 性别 | 数量 |

| --- | --- |

| 男性 | 2152 |

| 女性 | 944 |

传统方法诊断肌肉减少症的可重复性

对于传统方法,测试队列的一致率为68.4%,κ值为0.47(95%置信区间(CI)0.354–0.601)。相比之下,验证队列的一致率为47.5%,κ值为0.236(95% CI 0.143–0.330)(表2)。

表2 使用传统方法(手动分割)诊断的可重复性

| 队列 | 一致率 | κ值 |

| --- | --- | --- |

| 测试队列 | 68.4% | 0.47 |

| 验证队列 | 47.5% | 0.236 |

Body_AI的诊断性能

Body_AI系统在验证队列中的交并比(IoU)中位数为0.93,验证队列中所有图像的IoU均大于0.5,表明成功从验证队列的所有图像中提取了体区。

BMI_AI的诊断性能

验证队列由140名患者组成(82名男性和58名女性)。平均年龄为62.8 ± 12.0岁,平均BMI为22.2 ± 3.4 kg/m²(表3)。AI诊断BMI的受试者工作特征曲线下面积(AUROC)为0.959。敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)及其95% CI分别为0.960(0.888–0.992)、0.862(0.753–0.935)、0.889(0.800–0.948)和0.914(0.855–0.955)。这些值使用ROC分析输出值0.50作为截止点确定(表4)。

表3 各队列中BMI_AI患者的特征

| 性别 | 年龄 | BMI |

| --- | --- | --- |

| 男性 | 62.8 ± 12.0 | 22.2 ± 3.4 |

| 女性 | 62.8 ± 12.0 | 22.2 ± 3.4 |

表4 BMI_AI和Sarcopenia_AI的诊断性能

| 指标 | 敏感性 | 特异性 | PPV | NPV |

| --- | --- | --- | --- | --- |

| BMI_AI | 0.960 | 0.862 | 0.889 | 0.914 |

Sarcopenia_AI的诊断性能

在测试队列的114个病例中,有97名男性和17名女性,平均年龄为66.7 ± 8.0岁,平均BMI为21.4 ± 2.9 kg/m²。平均VFM为77.7 ± 62.1 cm²,平均SFM为113.9 ± 34.6 cm²,L3区域总SMA为88.2 ± 60.7 cm²,平均SMI为44.7 ± 9.8 (cm²/m²)。SMI低、中、高组分别包括36、16和62名个体。

在验证队列的118名患者中,有98名男性和20名女性,平均年龄为64.9 ± 8.2岁,平均BMI为20.9 ± 2.8 kg/m²。平均VFM为79.3 ± 45.7 cm²,平均SFM为117.3 ± 41.2 cm²,L3区域总SMA为87.1 ± 50.7 cm²,平均SMI为44.9 ± 8.9 (cm²/m²)。SMI低、中、高组分别包括30、14和74名个体(表5)。

表5 各队列中Sarcopenia_AI患者的特征

| 性别 | 年龄 | BMI | VFM | SFM | SMA | SMI |

| --- | --- | --- | --- | --- | --- | --- |

| 男性 | 66.7 ± 8.0 | 21.4 ± 2.9 | 77.7 ± 62.1 | 113.9 ± 34.6 | 88.2 ± 60.7 | 44.7 ± 9.8 |

| 女性 | 64.9 ± 8.2 | 20.9 ± 2.8 | 79.3 ± 45.7 | 117.3 ± 41.2 | 87.1 ± 50.7 | 44.9 ± 8.9 |

AI诊断肌肉减少症的AUROC为0.892。敏感性、特异性、PPV、NPV和准确性及其95% CI分别为0.803(0.682–0.894)、0.981(0.897–1.000)、0.980(0.894–0.999)、0.812(0.695–0.899)和0.886(0.813–0.938)(表4)。创建的肌肉减少症AI能够在大约0.18秒内快速识别肌肉减少症(补充材料)。

讨论

我们对基于AI的肌肉减少症诊断工具性能的研究揭示了相对于传统手动分割方法的巨大进步。传统方法的特点是在多次测量中表现出一致性的低度评分(κ值),带来了显著挑战。相比之下,AI模型,尤其是Body_AI,在肌肉减少症检测中表现出显著精度。值得注意的是,Sarcopenia_AI表现出令人称赞的灵敏度和特异性,以及大约0.18秒的快速决策时间。这些结果突显了本研究开发的AI工具的变革潜力,包括减少测量时间、简化流程和最小化测量误差,有效缓解传统方法的不足。

BMI作为全面的身体成分指标的局限性已广为人知。BMI主要基于体重和身高,缺乏准确反映身体成分细微差别的粒度。与BMI相比,肌肉减少症通常被认为是身体成分异常的代表性标志,持续显示出与死亡率的相关性,特别是在79岁及以上人群中。肌肉减少症对预后的影响在癌症患者中也相似。因此,认识肌肉减少症对临床结果的影响以及针对这些条件的治疗干预措施可能会改善并发症、生活质量(QOL)和总体预后。

然而,肌肉减少症的诊断尚未达到可以在临床实践中应用的程度。一个主要障碍是缺乏现成的诊断工具。虽然目前已有可以测量骨骼肌质量的工具,但传统方法是手动分割分析,存在多个缺点,尚未应用于临床。

首先,分割受到各种CT特定因素的复杂影响。因此,手动分割具有图像间和观察者间变异以及由于肌内脂肪而高估肌肉质量等缺点。在这项研究以及其他研究中,手动分割用作AI开发的评价标准。然而,手动分割表现出强烈的变异。因此,为了弥补手动分割测量间变异的缺点,手动分割进行了三次,并用作参考,从而使开发出具有准确值的AI成为可能。

此外,传统的肌肉减少症诊断工具由于手动分割耗时,具有时间消耗的缺点。尽管最近的努力已经使测量时间减少至每片1-3分钟,但这个过程仍然耗时。此外,肌肉减少症诊断需要在测量后计算骨骼肌指数,并获得必要的临床信息以诊断肌肉减少症;考虑到额外的时间,整个过程相当耗时。我们的AI通过使用常规CT图像立即识别肌肉减少症的存在,简化了肌肉减少症的诊断,无需专门协议。此外,由于诊断可以通过非增强CT扫描进行,即使是肾功能较差的患者也可以进行诊断。这种诊断工具在CT(肌肉减少症诊断的金标准)可用的患者群体中具有足够的实用性。

除了我们的研究外,还有其他关于使用AI测量骨骼肌质量的报告。尽管这些数据存在出版偏倚,但Dice相似系数(DSC)和Jaccard相似系数(JSC)都非常高,分别为0.941和0.967。然而,大多数这些研究仅使用30-60次扫描。这可能导致深度学习中的过拟合,对于相似数据集的分割有用,但在新数据集上的性能会下降。因此,这些发现仅限于研究出版物,尚未广泛应用于临床实践。在本研究中,我们通过分析3096张CT图像开发了一个模型,比以前研究使用的图像数量多得多。此外,这些模型使用外部队列进行测试,以防止性能下降。

尽管我们的研究在基于AI的CT身体成分测量方面取得了显著进展,但仍需承认某些局限性。回顾性设计和相对较小的样本量在评估的影像案例中引入了潜在偏差。我们认为这一限制不仅源于样本量,还因为这项研究偏向于大量癌症患者。此外,这项研究并未明确设计以确定肌肉减少症的可治疗性,未来的研究应深入探讨这一点。

为了加强未来的研究,前瞻性研究设计和纳入多样化的患者群体,特别是老年人,可以提高结果的普遍性和适用性。将肌肉力量评估整合进来至关重要,这是老年人功能结局和生活质量的预测因子之一。纵向跟踪肌肉质量随时间的变化将提供对年龄相关变化及其对疾病预后和管理影响的洞察。此外,多中心的外部验证将提高结果的稳健性和适用性。考虑这些因素的未来研究可能会提供一个更全面和实用的评估框架,更好地满足老龄化社会的需求。

总之,我们开发了一种基于AI的诊断工具,克服了传统方法的时间和测量误差,高效准确地识别身体成分并诊断肌肉减少症。使用我们研究和开发的AI,可以快速准确地诊断肌肉减少症。未来,我们希望开发一种不仅能从CT图像中识别肌肉减少症,还能评估肌肉力量(肌肉减少症诊断和个人身体功能所需)以及预测各种疾病的并发症、副作用和预后的AI。我们认为,这种方法不仅可以为肌肉减少症研究做出贡献,还可以为老年医学带来益处。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,如有侵权请联系我们删除。

本页内容撰写过程部分涉及AI生成(包括且不限于题材,素材,提纲的搜集与整理),请注意甄别。