为什么用AI诊断癌症如此困难Why it’s so hard to use AI to diagnose cancer

环球医讯 / AI与医疗健康来源:www.technologyreview.com美国 - 英语2025-01-21 18:00:00 - 阅读时长5分钟 - 2109字
本文探讨了利用人工智能(AI)诊断癌症的挑战,特别是通过梅奥诊所的一项最新研究揭示了AI在病理学领域的进展与局限,强调了数据质量和多样性对于提高AI性能的重要性。
AI癌症诊断梅奥诊所模式识别病理学家X射线磁共振成像图像识别数字病理平台Atlas模型前列腺癌乳腺癌结直肠癌训练数据数字化样本高分辨率图像分子测试错配修复基因临床价值存储成本基准测试GigaPathProvidenceGenomics
为什么用AI诊断癌症如此困难

用AI来诊断癌症听起来是一个极具前景的技术方向,但实际操作中却面临诸多挑战。最新的努力来自梅奥诊所,提供了一些重要的线索。

透过身体寻找和诊断癌症的核心在于识别模式。放射科医生使用X射线和磁共振成像来照亮肿瘤,而病理学家则通过显微镜检查肾脏、肝脏等区域的组织样本,寻找能显示癌症严重程度、特定治疗效果及恶性肿瘤扩散可能性的模式。

理论上,人工智能应该非常擅长辅助这一过程。“我们的工作是模式识别,”梅奥诊所数字病理平台的病理学家兼医疗总监Andrew Norgan说,“我们查看幻灯片,收集已被证明重要的信息片段。”

自大约15年前第一批图像识别模型问世以来,视觉分析一直是AI擅长的领域之一。尽管没有任何模型能做到完美,但可以想象,有一天强大的算法可能会捕捉到人类病理学家遗漏的东西,或者至少加快诊断速度。在过去一年中,至少有七次尝试构建这样的模型,但它们仍处于实验阶段。究竟需要什么才能让这些模型足够好以用于实际临床环境中呢?

本月早些时候,AI健康公司Aignostics与梅奥诊所合作领导的一项最新研究在arXiv上发布了有关构建此类模型的详细信息。虽然该论文尚未经过同行评审,但它揭示了许多将这种工具带入真实临床环境所面临的挑战。

名为Atlas的模型基于49万个病例中的120万份组织样本进行训练。其准确性与另外六种领先的AI病理模型进行了对比测试。这些模型在一个共享测试集上竞争,例如分类乳腺癌图像或评估肿瘤级别,模型预测结果会与人类病理学家提供的正确答案进行比较。Atlas在九项测试中的六项胜过了竞争对手,在分类结直肠癌组织方面达到了97.1%的人类病理学家一致率。然而,在前列腺癌活检样本的分类任务中,它的得分仅为70.5%,略高于其他模型的最佳成绩。总体而言,它在九个基准上的平均表现与人类专家的一致率为84.6%。

考虑到最了解癌细胞变化的方法是由病理学家检查样本,因此AI模型的表现是以此为标准衡量的。目前最好的模型在某些检测任务上接近人类水平,但在许多其他任务上仍然落后。那么,一个模型要达到多高的准确度才能具有临床价值呢?

“90%可能还不够好,你需要做得更好,”Providence Genomics的首席医学官Carlo Bifulco说,他也是GigaPath的共同创建者之一,后者是梅奥诊所研究中评估的另一种AI病理模型。但是,Bifulco认为,即使不完美的AI模型也可以在短期内发挥作用,帮助病理学家加快工作进度并更快地做出诊断。

阻碍更好性能的主要障碍之一是训练数据的问题。“美国不到10%的病理实践已经实现了数字化,”Norgan指出。这意味着大多数组织样本被放置在载玻片上并在显微镜下分析,然后存储在庞大的档案库中,而从未被数字化记录。尽管欧洲的做法更倾向于数字化,而且有一些创建共享组织样本数据库的努力正在进行,但可供使用的数据量仍然有限。

梅奥诊所在2022年左右预见到了这一缺乏训练数据的问题。于是决定对其所有未来的病理实践进行数字化处理,并从其几十年来的档案中扫描了1200万张载玻片(患者同意用于研究)。他们雇佣了一家公司建造机器人,开始拍摄高分辨率的组织图像,每月处理多达一百万个样本。通过这些努力,团队收集了用于训练梅奥模型的120万个高质量样本。

这引出了使用AI识别癌症的第二个主要问题:活检组织样本非常小——通常只有几毫米宽——但放大后的数字图像包含超过140亿个像素,比迄今为止用于训练最佳AI图像识别模型的图像大287,000倍。

“这显然意味着巨大的存储成本等问题,”微软AI研究员Hoifung Poon说,他曾与Bifulco合作开发了去年发表在《自然》杂志上的GigaPath。此外,它还迫使研究人员做出重要决策,即选择哪些部分的图像用于训练AI模型,以及在这个过程中可能会忽略哪些细胞。为了创建Atlas,梅奥诊所采用了一种称为切片的方法,即从同一样本中生成多个快照输入AI模型。如何选择这些切片既是艺术又是科学,目前尚不清楚哪种方法能带来最佳结果。

第三个问题是,对于AI模型来说,哪些基准最重要。Atlas的研究人员在其模型中测试了分子相关基准,这涉及到尝试从样本组织图像中寻找线索以推测分子层面的情况。例如,人体的错配修复基因对癌症特别重要,因为它们能够捕获DNA复制过程中出现的错误。如果这些错误未被纠正,则可能导致癌症的发展和进展。

“一些病理学家可能会告诉你,他们根据外观判断某些样本可能存在错配修复缺陷,”Norgan说。但病理学家不会仅凭直觉行事,他们可以通过分子测试获得更确切的答案。那么,是否可以用AI预测分子层面的变化呢?这是一个实验:AI能否发现人类看不见的潜在分子变化?

事实证明,目前还不能。或者至少还没有。Atlas在分子测试中的平均得分为44.9%,这是迄今为止AI的最佳表现,但也表明这类测试还有很长的路要走。

Bifulco认为Atlas代表了渐进但真实的进步。“不幸的是,我的感觉是每个人都在类似的水平上停滞不前,”他说。“我们需要不同的模型来实现重大突破,并且需要更大的数据集。”


(全文结束)

大健康
大健康