医院并不总是有机会以整齐、统一的方式收集数据。一家诊所可能只有一小部分来自一台扫描仪的精心标记的图像,却持有来自其他中心的数千张未标记扫描图像,每个中心都有不同的设置、患者群体和成像伪影。这种混乱使得本已困难的医学图像分割任务变得更加艰难。在整齐假设下训练的模型在部署到其他地方时可能会出错,特别是对于小型、微弱或低对比度的目标。
新加坡科技设计大学(SUTD)的赵娜助理教授及其合作者选择接受这种混乱,而不是忽视它。他们没有采用通常的设置(假设标记和未标记数据来自相似的分布),而是在一个更现实的场景下工作,称为跨域半监督域泛化(CD-SSDG)。
在这种场景下,少量的标记图像来自单一域,而大量的未标记池跨越多个不同的域,这正是许多医院面临的实际情况。
研究团队的发现详细记录在发表于《IEEE多媒体汇刊》的论文"用于半监督医学域泛化的双监督非对称协同训练"中。
目前,半监督方法通常依赖于伪标签。一个在较小标记集上训练的模型会为未标记图像猜测标签,然后从这些猜测中学习。当未标记图像与标记图像看起来有很大不同时,这些猜测会出错,错误会累积。
研究人员的解决方案是一个双监督非对称协同训练框架(DAC),其中两个子模型并行学习。它们仍然交换伪标签,但有一个关键的补充:特征级监督。
每个模型不仅信任像素级的猜测,还推动另一个模型在更丰富的特征空间中对齐,即使在风格和对比度不同的情况下也鼓励对底层结构达成一致。子模型还被赋予不同的自监督辅助任务——一个学习在CutMix图像中定位混合区域;另一个学习识别区域的旋转。这种非对称性保持了它们内部表示的多样性,降低了两个模型因相同错误而崩溃的风险,并增强了它们将前景与背景分离的能力。
"作为临床医生和工程师,我们很少有机会选择整齐的数据集,"赵娜助理教授说。"DAC是我们的安全网。当伪标签很脆弱时,特征级指导仍然将模型固定在稳定的、域不变的线索上。非对称任务则推动两个学习者从不同角度看待数据。"
在三个基准分割设置上进行测试——视网膜眼底图像(视盘和视杯)、结直肠息肉图像和脊髓灰质MRI——DAC在未见域上的泛化能力始终优于强大的基线方法,包括专为域泛化设计的方法。
在小型或低对比度结构(如视杯)上,增益最为显著,在低标记比例下,团队观察到Dice分数比最先进的方法提高了两位数。重要的是,辅助任务和特征监督仅在训练期间使用,因此DAC的推理成本与传统模型相同。
"让我们惊讶的是稳定性,"赵娜助理教授补充道。"即使我们将标记比例降低到某些设置中的十分之一,曲线也不会崩溃。这给了那些每年只能标记一小部分数据但仍希望模型具有良好的泛化能力的医院信心。"
该团队的方法也很实用。特征级监督作为一种软约束,不依赖于精确的像素级标签(在域转移下这些标签通常很嘈杂)。非对称任务,如混合区域定位和随机区域旋转预测,实现简单(每个任务只需一个线性头)且计算量小,但它们足以使两个学习者多样化,从而随着时间推移提高伪标签质量。
研究团队还指出了DAC可以进一步推进的方向。失败案例包括多个血管穿过视盘的眼底图像,以及目标几乎融入背景的场景。
未来的工作包括针对眼底图像的血管感知增强和自适应多视角表示,这些表示结合多尺度和频域线索,在低对比度设置中锐化边界。
"这些要素不仅限于我们测试的三个数据集,"赵娜助理教授指出。"肿瘤成像面临同样的双重压力——昂贵的注释和中心间的变化。DAC可以立即应用于这些领域,特别是当精确边界在临床上很重要时。"
虽然DAC是一种训练时的方法,而不是全新的网络,但其实用性影响在于——更好地利用未标记的跨中心数据,而不假设世界是独立同分布的。该方法也与现有主干网络(本研究中使用的是ResNet-DeepLabv3+)和标准优化器配合良好,保持了较短的采用路径。
研究人员报告称,在眼底、息肉和自监督对比图匹配(SCGM)基准测试中均有一致的改进,训练速度比领先的协同训练基线更快,且部署时没有额外成本。
"最重要的是,泛化是关键,"赵娜助理教授说。"医院希望模型在扫描仪不同、患者不同、照明不同的情况下仍能正常工作。通过不仅监督我们能看到的标签,还监督跨域保持一致的特征,我们向这一目标又迈进了一步。"
更多信息:宋金才等,《用于半监督医学域泛化的双监督非对称协同训练》,《IEEE多媒体汇刊》(2025)。DOI: 10.1109/tmm.2025.3613080
提供方:新加坡科技设计大学
【全文结束】


