人工智能在肺癌临床转化中的进展与挑战Progress and challenges of artificial intelligence in lung cancer clinical translation

环球医讯 / AI与医疗健康来源:www.nature.com美国 - 英文2025-07-10 16:05:56 - 阅读时长17分钟 - 8134字
本文探讨了人工智能在肺癌预防、筛查、诊断、预后、治疗和监测等多方面的应用,强调了其通过分析复杂数据实现患者个性化管理的潜力,同时指出数据共享、模型偏差、可解释性及可重复性等问题仍是临床广泛应用的主要障碍。
肺癌人工智能健康预防筛查诊断预后治疗监测数据共享模型偏差可解释性通才AI
人工智能在肺癌临床转化中的进展与挑战

摘要

人工智能(AI)算法,如卷积神经网络和变换器,在癌症护理领域产生了重大影响。对于肺癌,AI在戒烟、个性化筛查和影像基因组学方面具有巨大潜力,并且这些数据可以用于优化治疗选择。本文重点介绍了AI在肺癌管理中的变革性影响,讨论了模型偏差和公平性等关键障碍,并概述了未来临床应用的方向。

肺癌中的人工智能

肺癌仍然是全球癌症相关死亡的主要原因,每年估计有180万人死于肺癌。对生物学机制的理解和治疗方法的进步显著提高了患者的生存率。然而,大量的临床和研究数据仍未得到充分整合和分析。例如,尽管已经确定了各种非吸烟相关的肺癌风险因素,但尚未将它们整合到一个可靠的模型中以评估健康个体的风险。这一差距给识别最能从肺癌筛查中受益的人群带来了重大挑战。预测CT扫描上中间肺结节的恶性风险也是一个难题。需要数据驱动的方法来指导每位患者的治疗选择。通过高质量的真实世界数据,这些临床挑战可以通过深度学习解决。AI有可能在多个领域彻底改变肺癌管理,包括预防、筛查、诊断、预后、治疗和监测。(图1)代表性研究汇总在表1中,列出了任务、病例数、数据模式、算法和性能。

图1:AI在肺癌护理路径中的应用

由BioRender创建。Zhu, E. (2025)

完整尺寸图像

表1 肺癌中代表性AI研究总结

完整尺寸表格

在这篇叙述性综述中,我们探讨了AI在肺癌中的转化潜力,重点关注肿瘤学家视角下的紧迫临床挑战。我们没有详细说明技术方法,而是强调了AI的功能能力——它目前能做什么以及未来可能实现什么——以便于临床医生理解。我们进一步概述了临床转化的关键障碍,特别是为那些不是数据科学家的读者。本综述的参考文献通过搜索MEDLINE、PubMed和相关文章的引用识别,使用“肺癌”一词结合“人工智能”、“AI”、“机器学习”、“深度学习”、“放射组学”和“大型语言模型”等关键词。搜索主要集中在2014年1月1日至2024年12月21日期间发表的英文文献。

预防

烟草仍然是肺癌的主要病因。戒烟或控制吸烟是降低其风险的最有效策略。然而,据估计,全球吸烟人口仍接近10亿。为了支持戒烟,AI可以分析吸烟者日常环境的图像,识别与吸烟欲望相关的背景,并通过研究可穿戴传感器的信号监测吸烟行为并评估吸食特征。然而,仅在个人层面上解决吸烟问题是不够的。烟草控制是一个重大的公共卫生挑战,因为吸烟流行率受到多种因素的影响,包括性别、较低的社会经济地位、显著的身体或心理健康状况、同性恋、双性恋、变性人身份,或属于某些种族和族裔群体。吸烟欲望的根本原因和针对这些人群的有效干预措施尚未完全了解。为了解决这个问题,公共卫生研究人员必须与AI专家密切合作,利用先进AI工具的潜力支持戒烟努力。

筛查

美国预防服务工作组建议50至80岁且有20包年吸烟史的人每年进行低剂量CT(LDCT)筛查。然而,这是一个不精确的标准。迄今为止,很少有研究直接比较使用包年吸烟史和年龄与其他测量方法。一些证据表明,20年的吸烟持续时间比20包年更好。肺癌风险受多种因素影响,而不仅仅是年龄和吸烟,还包括种族、遗传和环境暴露。传统的线性回归模型通常难以有效处理和解释如此复杂和高维的数据。为了解决这一局限性,已测试了AI工具来识别患肺癌高风险的个体。这些工具利用常规临床数据、胸部X光片、广泛的网络搜索历史和调查回答中的隐藏模式。

当前筛查标准的一个重大挑战是高假阳性率,因为许多检测到的结节要么是良性的,要么是中等风险的。这导致不必要的随访和患者焦虑。虽然有指南帮助放射科医生估计恶性风险,但这些评估往往仍然主观且严重依赖个人的专业知识。已测试了基于深度学习的算法用于自动化癌症诊断,在肺癌筛查中表现出良好的性能。例如,谷歌开发的一种深度学习算法可以分析患者的当前和先前CT扫描。该模型在6716例国家肺癌筛查试验(NLST)案例中实现了最先进的性能(曲线下面积为94.4%),相比六位放射科医生,假阳性减少了11%,假阴性减少了5%。如果有先前的CT扫描,该模型的表现与相同的放射科医生持平。另一种基于深度学习的AI算法Sybil在从单一LDCT预测未来患肺癌风险方面表现稳健。Sybil在NLST上的接收者操作特征曲线下的面积在1年时为0.92,在6年时为0.75。这种AI可用于个性化筛查间隔,以优化资源利用。此外,AI增强了放射科医生在风险分层和管理建议方面的一致性。患者在随访期间会接受大量的辐射暴露。深度学习可以通过启用更低剂量的对比剂、减少电离辐射和缩短图像采集时间来革新图像重建。这一进步促进了超低剂量CT在大规模肺癌筛查中的应用。

一项荟萃分析显示,基于AI的LDCT筛查工具具有高灵敏度(94.6%)但仅有中等特异性(93.6%),相当于约6.4%的假阳性率和约5.4%的假阴性率。此外,AI性能也可能因训练数据集中的偏差而受到影响——例如图像质量、扫描条件和供应商平台的变化——导致不同机构之间的检测率不一致。为了减轻这些限制,模型应在大规模、多中心和人口统计多样性队列上进行开发和验证,并在临床部署前进行系统性偏差审计框架和前瞻性外部测试。

使用LDCT进行筛查为AI提供了同时检测其他吸烟相关疾病的机会,如慢性阻塞性肺病和心血管疾病。除了CT扫描,深度学习在检测X光片上的肺结节方面显示出优于放射科医生的表现。除了放射影像外,AI还可以利用血液生物标志物,包括ctDNA和血浆蛋白标志物,辅助早期肺癌检测。

诊断

肺癌是一种异质性疾病,具有多样的临床病理特征。AI可以通过分析放射组学、数字病理学和基因组测序数据,在三个领域改善诊断。

放射组学

放射组学和深度学习技术的进步使临床医生能够从常规放射扫描中提取全面的病理见解,甚至在最终病理确认之前。这种方法已被证明有助于区分肺癌和良性病变、原发性和转移性肺部病变、恶性与良性胸腔积液,以及腺癌和鳞状细胞癌,甚至是腺癌亚型。它还展示了预测驱动突变的能力,如EGFR 19Del(外显子19)和L858R(外显子21)、T790M(外显子20)和ALK重排突变。放射组学还可以预测PD-L1和CD8+ T细胞的表达,以指导免疫治疗。

数字病理学

计算病理学领域尽管最初因数字化的高成本而受阻,但由于AI的进步获得了显著的动力。AI能够在各种标本类型中自动诊断肺癌,包括H&E切片、冷冻组织切片、细胞病理学样本和淋巴结活检。它还展示了从H&E切片中预测驱动突变、PD-L1表达和肿瘤浸润淋巴细胞的能力。

基因组测序

预测性生物标志物发现的进步为肺癌治疗中的靶向治疗和免疫治疗铺平了道路。AI在下一代测序中增强体细胞突变识别方面优于标准遗传分析方法。通过解码基因组和转录组数据,AI能够准确确定未知原发部位癌症的起源细胞,有助于诊断和治疗计划的制定。在免疫生物标志物的背景下,AI能够预测其他生物标志物,如肿瘤突变负荷、新生抗原和T细胞受体-抗原结合特异性。

预后

肺癌主要根据肿瘤、淋巴结和远处转移分类系统进行分期。在某些情况下,患者可能需要额外的侵入性程序,如支气管内超声活检,以评估淋巴结受累情况。AI作为一种有价值的工具,通过整合多模态数据,包括医疗记录、放射学、病理学和分子数据,提高分期准确性和风险分层。例如,一些初步的AI研究已经在常规放射扫描上进行了测试,以预测腺癌的侵袭性、远处转移,以及识别新的成像亚型。此外,AI自动化了医学成像中复杂特征的提取,为预后分层提供了新见解。对于放射学,AI预测与总体生存率显著相关,AUC为0.70-0.71,优于临床特征预测的AUC为0.58-0.66。对于病理学,AI能够预测总体生存率,AUC为0.64-0.85,优于临床特征预测的AUC为0.52-0.84。

治疗

手术

在周围型、无淋巴结转移且大小为2厘米或更小的非小细胞肺癌(NSCLC)患者中,亚叶切除术并不逊色于肺叶切除术。然而,淋巴结阴性状态只能在手术后才能最终确认。为了解决这一限制,开发了一种基于深度学习的AI模型,用于术前预测淋巴结转移。AI表现出强大的性能,有潜力协助外科医生准确识别适合亚叶切除术的患者。通常情况下,亚叶切除术保留给肺功能受损的患者。呼吸科医生与AI的合作可以解读肺功能测试(PFTs),这对评估患者的手术适应性至关重要。当患者被选为段切除术时,胸腔内解剖结构的变异性和复杂性构成了重大挑战。已开发出虚拟现实系统来重建胸腔解剖结构,帮助术前手术规划并可能缩短复杂手术的持续时间。在手术的最后阶段,AI可以通过分析手术视频来检测漏气点,即使是在塌陷的肺部。这种功能增强了外科医生在关闭胸腔前应对潜在并发症的能力。

放疗

放疗是一种关键的治疗手段,尤其是对于局部晚期肺癌,它仍然具有治愈潜力。准确划定大体肿瘤体积和一致地勾画危及器官是必不可少但又具挑战性的。已测试了基于AI的算法用于自动轮廓绘制和放疗计划,这对于低收入和中等收入国家尤其有用。此外,放射组学模型已被用于预测肺癌复发、心脏毒性和放疗后的肺毒性。

系统治疗

非小细胞肺癌(NSCLC)的免疫原性较差。然而,免疫治疗的进展已经确定了两个与NSCLC相关的关键免疫检查点:CTLA-4和PD-1/PD-L1轴。临床研究一致表明,抗PD-1和抗PD-L1抗体相比化疗显著提高了患者的生存率,标志着该疾病治疗策略的重大突破。PD-L1表达是预测免疫检查点抑制剂治疗反应的主要生物标志物。然而,也观察到在肿瘤中未检测到PD-L1表达的患者中有反应。这种现象很可能是由于单个肿瘤内部(瘤内)和不同肿瘤之间(瘤间)PD-L1表达的异质性所致。这种变异性在依赖活检样本时引入了固有的偏倚,因为活检样本可能无法准确代表整体的肿瘤微环境。除了传统的免疫生物标志物,放射组学生物标志物为患者的生存提供了早期指标。这些标志物还可以预测免疫治疗的不良反应,如超进展、恶病质和免疫治疗诱导的肺炎。深度学习模型有效地捕捉了超出已知手工特征的额外成像模式,提高了预测准确性。另一方面,血液生物标志物如ctDNA和细胞因子在预测免疫治疗反应方面也对AI有价值。AI整合多模态数据(包括放射组学、病理组学和基因组学)进行综合大数据分析的能力,为识别免疫治疗响应者提供了巨大的前景,最终推进了肺癌的个性化治疗策略。

EGFR突变是肺腺癌中最常见的可靶向驱动突变。第三代EGFR-TKIs显著延长了患者的生存期。然而,治疗耐药性仍然是一个挑战。联合化疗或VEGF抑制剂已被证明可以提高EGFR-TKIs的反应持久性。尽管有这些好处,接受联合治疗的患者出现严重不良事件的几率更高。因此,肿瘤学家必须仔细识别和选择最有可能从这些方法中受益的高风险患者。两项研究发现,AI可以预测进展风险以识别高风险患者。

临床决策支持系统

AI在整合放射学、病理学、基因组学和临床数据方面具有很大的潜力,可以在临床决策支持中发挥作用。当与AI有效集成时,临床决策支持系统可以为医生提供个性化的治疗信息。一些研究探索了AI工具如Watson for Oncology(WFO)在肺癌患者决策中的应用。初步结果表明AI在遵循临床指南和辅助决策方面的潜力。然而,相对较高比例的病例仍然没有得到WFO的支持,它需要学习患者的区域特征。

监测

目前,肺癌治疗反应和疾病进展的评估主要依赖于实体瘤疗效评价标准(RECIST)中规定的病灶大小。早期区分应答者和非应答者对于及时调整治疗方案至关重要。然而,由于假性进展等现象的存在,RECIST在靶向治疗和免疫治疗中的有效性受到了质疑。无创放射组学生物标志物可以预测肺癌患者的假性进展和超进展,AUC分别为0.88(假性进展 vs. 超进展)和0.87(超进展 vs. 进展)。此外,反应评估是一个耗时的过程,需要大量的专业知识,并且存在较高的阅片者间和阅片者内的变异性。深度学习在自动化这一过程中显示出希望。应用包括接受免疫治疗患者的自动化RECIST评估。

微小残留病(MRD)与肺癌的疾病进展密切相关。监测血浆中的循环肿瘤DNA(ctDNA)已成为一种有价值的检测MRD和预测患者生存的方法。纵向ctDNA检测提供了对治疗反应的洞察,并可以指导转移性非小细胞肺癌(NSCLC)患者的治疗策略。此外,机器学习方法在分析ctDNA动力学方面显示出希望,能够优化NSCLC的个性化治疗。

大型语言模型在肺癌中的应用

大型语言模型(LLMs)无需特定任务训练即可响应自由文本查询。这使得AI能够极其快速和准确地学习和理解医学领域的知识。例如,医学聊天机器人已经展示了生成与临床医生相当质量的回答的能力,无论是在质量和同理心方面。对于肺癌,LLMs可以用作决策辅助。尽管前景光明,但准确性是最令人担忧的问题。LLMs可能会生成虚假事实,因为它们学习的是统计词语关联而非真正的理解。此外,训练数据通常来自未经验证的互联网。它们在人类监督下作为辅助工具表现最佳,而不是在自主角色中。在临床试验的背景下,AI通过将患者医疗记录与入选标准对齐,促进匹配过程。多项研究报告称,AI可以有效地提取患者数据并将其与相关临床试验匹配。

肺癌中批准的AI设备

在AI算法可以在临床环境中实施之前,需要获得官方批准。AI发展的速度对适当的监管框架提出了挑战,并需要更多人员高效处理提交。这个过程涉及比学术出版物中通常呈现的更为严格的临床试验和验证测试。FDA根据对个别患者潜在风险的水平对这些AI医疗设备进行分类。许多肿瘤学中的AI设备属于II类(中等风险),通常不需要随机对照临床试验。为了将AI产品广泛应用于临床,需要进行良好控制的临床研究,以证明产品的益处大于其风险。此外,大多数AI产品在预定义任务(如检测)中表现良好,但在不同患者群体中缺乏泛化性,需要验证。因此,只有少数AI算法有资格在临床环境中部署。在已批准的肺癌AI应用中,它们主要集中在肺结节检测、诊断和放疗计划上,所有这些算法都是基于影像的。(表2)需要多方合作优化和调整监管框架和流程,改进AI的开发、验证和文档标准,应对先进和不断发展的AI挑战,加强全生命周期管理和上市后监控。

表2 FDA批准的肺癌AI设备

完整尺寸表格

挑战和机遇

肺癌中的人工智能研究为自动化和精准管理提供了有前景的前景,但将这些进展转化为临床实践面临若干障碍。以下讨论了主要挑战。

数据共享

持续的数据供应对于AI算法的有效训练、验证和改进至关重要。为了开发强大的AI工具,需要来自多个机构的大规模高质量数据集,以解决统计能力、多样性和临床实践差异等限制。然而,由于对患者隐私和知识产权保护的担忧,数据共享充满挑战。为了解决这个问题,有三种主要选项可用。第一种是集中式学习,各机构创建共享法律协议和安全协议以汇集数据。虽然有效,但这种方法成本高昂。第二种是通过创建去标识化的公共数据集。一些常用的肺癌数据库已被汇总。(表3)这种方法更实惠,但可能缺乏某些类型的患者信息,使得很难为特定临床应用训练AI。第三种是联邦学习。数据在每个机构保持私密,但AI模型以分布式方式训练。它已在几种癌症相关应用中实施,包括乳腺癌、脑癌、胃癌、黑色素瘤和肺癌。

表3 公开可用的肺癌数据集及其描述和挑战

完整尺寸表格

偏差和公平性

AI模型不可避免地继承了相关的偏差,这些偏差偏向特定的种族、民族或性别群体,导致在应用于多样化人群时表现不佳。例如,只有50%的黑人女性和63%的黑人男性在确诊为肺癌时符合筛查条件。根据胸外科医师学会普通胸外科手术数据库的75,774名患者报告显示,白人患者和拥有私人保险的患者接受复杂手术的比例更高。正在努力生成更多样化的数据集并在乳腺癌和肺癌中减少偏差。此外,AI算法可以专门设计以确保公平性,提高其在不同人口统计和社会经济群体中的有效性。

可解释性

这仍然是AI的一个重大挑战,特别是端到端系统的深度学习方法,直接从输入映射到输出,没有手动选择的特征。这种黑箱性质使得很难理解哪些因素推动了决策,可能导致由于数据中的虚假混杂因素得出误导性结论。这种不透明性在医疗决策中常常被认为是不可接受的,成为临床应用的重大障碍。因此,可解释AI已成为一个高度活跃的研究领域,旨在使AI模型更加透明和易于理解。尽管有这些努力,临床使用的最佳解释形式尚不清楚,即使是FDA批准的AI设备目前提供的可解释性也很有限。

可重复性和转化

一个强大的AI模型需要外部团体进行独立审查和测试,这对于评估数据集中的潜在偏差并确保在不同临床环境中的通用性至关重要。尽管有这些需求,大多数已发表的AI研究仍然缺乏可重复性。成像协议如CT扫描仪制造商、辐射剂量、卷积核、迭代重建和切片厚度显著影响深度学习算法的诊断性能。这种变异性降低了临床实践中的可靠性。患者呼吸引起的运动伪影和图像噪声进一步降低了数据质量,使结节检测和分割等任务复杂化。此外,放射科医生之间的注释变异性引入了主观性,影响了准确性。为了解决这些问题,标准化的预处理管道对于解决这些挑战并确保适用于肺癌应用的稳健、通用的AI模型至关重要。最近,图像生物标志物标准化倡议(IBSI)在建立标准方面取得了显著进展。一份包含16项标准的最佳放射组学测试开发清单为未来放射组学分析的实施提供了指导。各种指南已被提出,以提供报告AI建模必要信息的基本框架,包括MINIMAR(医学AI报告的最低信息)、SPIRIT-AI(推荐的干预试验标准-人工智能)、CONSORT-AI(试验报告综合标准-人工智能)和ESMO-GROW(欧洲医学肿瘤学会肿瘤学真实世界证据报告指南)。

未来方向

AI正在迅速发展,其最终目标是开发一个综合模型,即通才AI,能够分析多模态数据并处理广泛的任务。目前,大多数医疗保健领域的AI模型是单模态和单任务的,需要针对不同类型医疗数据(如医疗记录、放射学、病理学和基因组数据)分别解决单项任务。新颖的深度学习架构可以整合多模态数据,从而提高模型性能。最近,PathChat作为一种聊天机器人被引入,能够与病理学家进行互动讨论,可能提供与具体病例相关的专家级见解。扩展这一概念,通才深度学习模型可以整合全面的患者信息,并以类似于ChatGPT的方式与医生互动。此类模型可以让医生用自然语言定义预测任务,模型则解释其预测。通才AI有潜力显著提升肿瘤学中的诊断和预后方法,从任务特定模型转向整体、综合的方法。

除了传统的医疗数据(如放射影像和基因组信息),这些数据成本高昂且不具备时间敏感性,智能手机和可穿戴传感器的技术进步可以为每位患者收集广泛的生理和环境数据。AI在管理这些大数据集方面具有巨大潜力,以识别受环境和行为因素影响的高危癌症人群,如肺癌。在未来,实时AI辅助的肺癌预防可以提供个性化的早期干预和风险管理策略,同时为研究人员积累宝贵数据,以识别潜在的风险因素。整合个人数据还可以促进远程监测,在肺癌的诊断和治疗过程中,根据需要向主治医生和患者发出警报。

局限性

所讨论的AI应用本身面临着重大限制,阻碍了立即广泛应用于临床。这些包括数据共享和质量问题、模型固有的偏差、影响可解释性的“黑箱”特性以及许多研究中普遍缺乏重现性和外部验证。大多数目前已批准的AI工具基于影像并且针对特定任务,表明多模态、通才AI的全部潜力尚未在常规临床实践中实现。

结论

AI通过分析复杂数据,显著提升了肺癌在预防、筛查、诊断、预后、治疗和监测方面的护理水平。深度学习算法在提高诊断准确性、预测治疗反应和自动化任务方面展现出巨大潜力。然而,数据共享、模型偏差、缺乏可解释性和重现性问题等挑战阻碍了其在临床上的广泛应用。需要多方合作优化和调整监管框架和流程,改进AI开发、验证和文档标准,应对先进和不断发展的AI挑战,并加强全生命周期管理和上市后监控。能够整合多模态数据的通才AI的发展,将提供整体和交互式的决策支持。

数据可用性

本研究期间未生成或分析任何数据集。


(全文结束)

大健康
大健康