基于深度学习的半监督语义分割综述

作者：孙博远，刘夏雷，侯淇彬等

来源：《北京交通大学学报》

编辑：陈萍萍的公主@一点人工一点智能

原文：https://jdxb.bjtu.edu.cn/CN/10.11860/j.issn.1673-0291.20230119

摘要：语义分割在诸多现实领域有丰富的应用，但是其训练过程需要大量像素级别标注图像，训练成本较高。半监督语义分割可以在仅使用少量标注图像和大量无标注图像的情况下进行训练，更贴近现实场景，受到国内外的广泛关注。本文分析和总结了近年基于深度学习的半监督语义分割的相关研究，对现有方法进行分类讨论。

首先，介绍了半监督语义分割中使用最广泛的基准数据集，以及常用的实验设定和评价指标。其次，从基于对抗学习、基于多网络架构、基于多阶段架构以及单阶段端到端架构4个方面对基于深度学习的半监督语义分割算法进行了梳理和归类。再次，在不同数据集主流基准下对多种代表性方法进行公平对比实验。最后，从基础模型结构、单阶段端到端方法的潜在能力、有标签数据的长尾分布问题以及与先进大模型结合等方面，对半监督语义分割任务面临的挑战以及可能的未来研究方向进行了讨论。

引言

语义分割是图像处理和计算机视觉领域的核心任务之一，其目标是为图像提供像素级别的分类预测，即为每个像素确定所属的语义类别。作为一种像素级的分类任务，语义分割可以感知到场景中每一类物体的位置、形状等信息，这种全面的感知能力使得语义分割可以被应用于诸多现实应用中，包括自动驾驶［1］、场景理解［2］、医学影像分析［3］、遥感图像分割等［4］。然而，进行逐像素分类需要大规模的精准标注数据，并且标记过程既昂贵又耗时，导致语义分割任务的成本远超一般图像分类和目标检测类任务。

为应对这一挑战，近年来，研究人员一直在积极探索降低语义分割任务对大规模准确标记数据需求的方法。这些方法包括需要全部图像分类标注的弱监督语义分割［5-6］、需要少量完整标注数据的半监督语义分割［7-9］和无需数据标注的无监督分割［10-11］方法。其中，半监督语义分割方法仅需要少量已标记数据，辅以大量未标记数据进行训练，数据获取的成本和难度较低，同时相较于无监督语义分割在性能上有显著优势。因此，半监督语义分割不仅在学术研究中具有重要价值，在工业界的实际应用中亦具有广阔前景。

虽然在深度学习前已有针对半监督语义分割的研究，但随着深度学习技术，尤其是卷积神经网络（Convolutional Neural Network， CNN）［12-16］的快速发展，半监督语义分割任务在性能和策略上均取得了显著的提升。随着半监督语义分割任务的发展，不仅常用的数据集有所变化，数据集的划分方式也根据数据集和方法的不同发生了很大变化。

目前半监督语义分割方法仍在不断发展和创新，训练策略和模型架构都发生了很大变化。现有的综述类工作［17］虽然对现有方法采用的技术进行了简单分类，但是缺失了对模型训练范式和复杂程度的总结，且对数据集的总结缺少时效性，这些内容亟待详尽的归纳与整理。

本文重新整理了半监督语义分割相关的数据集，并给出目前主流的性能对比基准；重新梳理了现有的半监督语义分割方法，并对代表工作进行分类总结；在常用数据集主流的基准下对典型语义分割方法进行公平比较；对半监督语义分割潜在的研究方向进行分析和讨论。研究成果可为后续半监督语义分割领域的训练范式和算法设计提供借鉴和参考。

半监督语义分割常用数据集

为验证半监督语义分割方法的性能，通常需要在一个或者多个数据集上进行实验。不同于全监督或弱监督语义分割，有标签数据的数量会极大地影响半监督语义分割算法的性能。因此，在半监督语义分割场景下，对训练集进行多种划分。每种划分都会采样出一定比例的有标签数据，剩余的训练集数据即被视为无标签数据。

然而，即使在相同的划分比例下，采样方式的不同也会在很大程度上影响数据的分布，进而造成半监督语义分割算法的性能波动。为公平比较，每一个数据集都有常见的数据划分方式。表1展示了半监督语义分割中4种常见自然图像数据集的各项指标和在半监督语义分割任务中的划分比例。

表1 半监督语义分割数据集

1.1 PASCAL VOC 2012数据集

PASCAL VOC 2012数据集［18］来自PASCAL VOC在2012年发布的语义分割竞赛。该数据集以常见物体为主，包含20个前景类和1个背景类，前景类分别为：aeroplane、bicycle、bird、boat、bottle、bus、car、cat、chair、cow、dining table、dog、horse、motorbike、person、potted plant、sheep、sofa、train、tv monitor。原始的竞赛数据集［18］一共提供了1 464张经过人工精确标注的图像作为训练集，可将这种设定标记为PASCAL VOC 2012 （classic）。

在此之后，文献［19］利用图像边缘数据，新标注了9 000多张图像，将PASCAL VOC数据集的训练集容量扩充到10 582张，该设定被标记为PASCAL VOC 2012 （blender）。然而，相较于最初人工标注的1 464张图像，新标注的标签的精度明显较为粗糙。数据集的验证集图像数量为1 449.目前，PASCAL VOC 2012数据集是最通用的衡量半监督语义分割任务性能的数据集。

在对PASCAL VOC 2012 （classic）进行数据划分时，会从训练集中的1 464张图像中，选取1/16、1/8、1/4、1/2以及全部的图像作为有标签数据，故将1/16、1/8、1/4、1/2、全部这5种不同的比例作为半监督语义分割基准，图像数量分别为92、183、366、732以及1 464.目前在PASCAL VOC 2012 （classic）设定下，使用CPS［22］方法给出的数据划分方式是最通用的设定。

在对PASCAL VOC 2012 （blender）进行数据划分时，会从扩充后的全部10 582张图像中，选取1/16、1/8以及1/4的图像作为有标签数据，故将1/16、1/8以及1/4这3种不同的比例作为半监督语义分割基准。目前在PASCAL VOC 2012 （blender）设定下，使用CPS［22］和使用U2PL［23］给出的数据划分方式是最通用的设定，其中CPS的划分方式为随机采样，U2PL的划分方式会尽可能包括全部的高质量人工标注图像。

1.2 Cityscapes数据集

Cityscapes数据集［20］是一个城市街道场景的语义理解图片数据集，主要包含来自50个不同城市的街道场景。该数据集包含19个不同类别，分别为：road、side-walk、building、bicycle、wall、traffic light、fence、pole、traffic sign、vegetation、train、sky、person、rider、car、truck、bus、train、motorcycle。训练集中包含2 975张人工精细标注的图像以及20 000张粗略标注图像，验证集中包含500张图像。

在半监督语义分割场景下，一般仅使用精细标注的图像作为训练集。同时，由于在Cityscapes数据集中单张图像的分辨率较高且单张图像中会同时包含多个类别，相较于PASCAL VOC 2012数据集场景更复杂，分割难度更高。因此，Cityscapes数据集对于半监督语义分割方法更具挑战性。目前，很多半监督语义分割算法［7-9， 22-23］也会公布在Cityscapes数据集上的评测结果，以表明模型在相对更复杂场景下的性能。

在对Cityscapes数据集进行划分时，一般选取2 975张图像的1/16、1/8、1/4以及1/2作为有标签数据，故将1/16、1/8、1/4以及1/2这4种不同的比例作为半监督语义分割基准。目前，在Cityscapes数据集上，使用CPS方法给出的数据划分方式是最通用的设定。

1.3 MS COCO数据集

MS COCO（Microsoft Common Objects in Context）数据集［21］，是一个大规模计算机视觉数据集，由微软研究院于2014年发布。该数据集主要用于目标检测、分割和关键点检测任务。MS COCO数据集包含81个不同的类别，涵盖了日常生活中广泛出现的物体，如人、动物、交通工具、食物等。数据集中的每张图像都有详细的标注信息，包括每个物体的边界框、类别标签以及像素级的语义分割掩码，还提供了图像关键点标注，用于人体姿态估计任务。

MS COCO数据集包含拥有118 287张图像的训练集和5 000张图像的验证集，规模较大，能够提供更多的训练和评估样本，有助于保证算法的稳健性和准确性。相较于PASCAL VOC 2012数据集和Cityscapes数据集，MS COCO数据集对于半监督任务更具挑战性，因此也有一些方法选择在MS COCO数据集上进一步验证有效性和鲁棒性。

在对MS COCO数据集进行划分时，一般会从118 287张训练集图像中选取1/512、1/256、1/128、1/64及1/32作为有标签数据，故将1/512、1/256、1/128、1/64及1/32这5种不同的比例作为半监督语义分割基准。

半监督语义分割方法

本文将基于深度学习技术的半监督语义分割方法按训练范式分为4类：基于对抗学习的方法、基于多网络架构的方法、基于多阶段架构的方法、基于单阶段端到端架构的方法。同时，依据使用的具体技术，即强图像增强和对比学习，对代表性半监督语义分割方法进行了归纳整理。各方法的分类情况如表2所示。

表2 半监督语义分割方法分类

2.1 基于对抗学习的方法

生成对抗网络（Generative Adversarial Networks， GANs）［51］提出一种利用神经网络间对抗学习进行模型训练的范式，已在多个领域得到广泛应用。同时，其生成的形式与对抗学习的性质也启发了一些使用深度学习进行半监督语义分割的方法。考虑到一般情况下，GAN的网络结构包括生成器（Generator）和鉴别器（Discriminator），本文将基于对抗学习的半监督语义分割模型细分为2类，即利用生成器的方法和利用鉴别器的方法。

利用生成器的方法通常借助GAN网络中的生成器，生成新的合成图像，用作半监督语义分割模型的附加训练数据。一个典型的方法由文献［24］提出。该文认为添加大量虚假的视觉数据能够使真实样本在特征空间中接近，进而提高像素级分类的性能，所提方法使用生成器网络为多类鉴别器提供额外的训练数据，将样本分配给可能的类别或标记为伪造样本。

随着GAN网络的发展，特别是StyleGANv2［52］的提出，图像生成的质量和精细程度得到了大幅提升。文献［26］提出一种新的基于对抗生成的半监督语义分割方法，进一步扩展了StyleGANv2模型，即通过增加一个标签合成分支试图捕捉图像和标签的联合分布，从而获得生成新图像-标签对的能力。

基于鉴别器的方法没有直接使用生成器进行数据增广，而是借鉴了GAN的对抗训练范式。在2018年，文献［25］提出了一个标准范式：将分割网络的预测结果输入鉴别器，借助对抗训练的方式将其与真实标签之间进行区分并得到网络预测标签的逐像素置信度分布图；利用该置信度分布图，在无标签数据上标定出特定的区域，用于模型的训练过程。后续也有工作在该范式的基础上进行了改进，例如文献［27］提出一种双分支的训练方式，在保留对抗训练的基础上增加了一个半监督分类的分支，旨在利用类级的分类信息从分割结果中剔除错误的预测。

然而，基于对抗学习的方法有明显的缺点，例如训练不稳定、训练成本高等，因此并非当下主流的半监督语义分割结构。

2.2 基于多网络架构的方法

随着基于CNN的语义分割方法不断发展以及半监督分类任务中对无标签数据利用方式的探索，在当下主流的半监督语义分割方法中，一种常见的方案是采用多网络架构（Multi-networks Architecture），即在训练过程中同时维护多个神经网络模型。

其中，加权教师（Mean Teacher）架构［53］和对偶学生（Dual Student）架构［54］是代表性架构，以Mean Teacher为例的多网络架构见图1.Mean Teacher架构包含1个教师网络和1个学生网络，其中，教师网络的权重通过对学生网络权重进行指数移动平均（Exponential Moving Average， EMA）得到，不产生梯度。Dual Student结构则包含2个同时进行梯度下降的学生网络。

图1 多网络架构（以Mean Teacher为例）

由于多网络架构在训练过程中需同时维护多个可以接受独立输入的网络，因此非常适合一致性正则化（Consistency Regularization）的训练策略。该策略旨在提高模型对视角或输入变化的鲁棒性，核心思想为：同一数据样本的不同变换或视角以及不同神经网络本身的随机性，都不应该影响模型给出一致的输出。

典型多网络架构的训练范式是要求不同网络对同一个数据样本的不同变换给出一致的预测，利用网络对不同难易程度数据的推理结果约束训练过程。基于多网络架构的半监督语义分割方法，对于无标签数据，一般包含弱图像增强和强图像增强2个分支。

其中，弱图像增强一般与全监督语义分割中的数据增强相同，包括随机尺度、随机裁切和随机翻转；强图像增强则包括色彩抖动（ColorJitter）、随机灰度、高斯模糊等。一个理想状态下的网络对非语义层面的扰动应当是不敏感的，即网络对于弱图像增强数据和强图像增强数据应该给出一致的预测。

由表2可知，使用强图像增强技术对输入数据进行扰动，已成为大部分半监督语义分割的通用方法。文献［28］指出，半监督语义分割任务需要更强、更多样化的扰动，例如CutOut、CutMix等复杂的图像增强技术。目前，CutOut、CutMix也已成为半监督语义分割方法中常用的强数据增强方式。

AugSeg［44］方法为分析数据增强对半监督语义分割任务的影响，设置了一个包含多种数据增强方法的数据增强池，并在模型训练时从其中随机采样出特定数量的数据增强方法作用于图像，丰富了半监督语义分割任务中的数据增强方法。同时，AugSeg也提出了一种改进的CutMix方法，有效提升了模型性能。

近年来，多网络架构已成为用于半监督语义分割任务的一种主流架构。这一架构利用无标签数据增强模型的泛化能力，进而提升模型整体的鲁棒性。很多方法都采用了这一基本范式，并在此基础上提出了新的思路。

AEL［39］是使用Mean Teacher架构的典型方法，该方法关注到数据集中不同类的数据分布不同，通过设计置信度库（Confidence Bank）的方式动态跟踪训练过程中不同类别的性能，从而向预测性能较差的类进行倾斜，达到不同类别之间的平衡。C3-SemiSeg［33］方法专注于不同数据增强的图像在特征层面的对齐，并且据此提出一种区域级数据混合的图像增强技术。

ReCo［40］方法使用对比学习技术，在已有编码器的基础上连接了一个辅助解码器，将输入特征映射到更高维度的表征空间。同时，该方法使用稀疏采样，仅对图像中小部分像素进行采样，通过所提出的对比损失函数，约束样本在表示特征空间中靠近正键，并远离负键。U2PL［23］方法同样使用对比学习方式，关注到模型预测时的可信度，通过筛选信息熵的方式将预测划分为可靠区域和不可靠区域。该方法指出，不可靠区域像素的混淆一般发生在具有相对高概率的类别之间，即该像素对于其不属于其他低概率类别有很强的信心。

因此，U2PL方法将这些像素视为最不可能的类别负样本，从而提高了无标签数据的利用率。DGCL［46］方法也使用了Mean Teacher架构和对比学习结合的形式，设计了一个多尺度密度估计模块，从多个最近邻图中获取特征密度，并通过对比学习将稀疏区域中的特征向高密度正样本近似的簇中心推进，将这种几何正则化与模型训练结合起来，为无标签数据提供互补的监督。

PCR［50］方法利用原型（Prototype）规范类内特征分布，鼓励模型的预测与基于Prototype的预测器的输出之间的一致性。GTA［48］方法在教师网络的基础上，引入助教网络（Gentle Teaching Assistant， GTA）调整教师网络给出的伪标签，并通过EMA与学生网络的编码器交互。

除了考虑在输入端进行图像增强，还有一些多网络架构方法通过特征层面的增强，例如随机失活（Dropout）、随机加噪和虚拟对抗训练（Virtual Adversarial Training， VAT）［55］等，对不同网络的一致性进行约束。CCT［7］是使用特征层面扰动的典型方法，除标准的编码器-解码器结构外，其网络结构还包括数个并列的结构相同的解码器。该方法主要通过随机加噪和Dropout的方式对特征进行扰动，经过不同扰动后的特征分别被送入额外的解码器，从而得到每个额外解码器的预测结果。CCT通过对齐主编码器与额外解码器的输出进行一致性正则化约束。

PS-MT［42］方法基于Mean Teacher结构，提出一种多教师单学生网络的模型。在每个训练周期内，仅使用EMA方式更新一个教师模型的参数，即2个教师网络在一个周期交替更新。此外，该方法还提出一种基于VAT的对抗特征扰动方法T-VAT，使用教师特征估计对抗性噪声，然后将估计的噪声应用于学生模型的特征，从而寻找能最大化模型预测和伪标签距离的噪音。PS-MT方法通过集合数据层面的扰动、特征层面的扰动以及多教师网络，实现了一致性正则化约束。

RC2L［45］方法基于Mean Teacher架构进行了改进，除了在像素层级增强强弱数据的一致性，还从区域层级对一致性进行了考虑，在输出层面使用区域掩码对比损失的同时，在特征层面增加了区域特征对比损失。CCVC［47］是一种通过在特征层面上对齐强弱不同的数据增强图像的方法，它基于冲突的跨视图一致性方法提出一种包括2个子网络的协同训练框架，使2个子网络学会从不同的视角推理相同的输入，然后进行信息交互以生成一致的预测。

不同于基于Mean Teacher结构的方法，CPS［22］方法选择Dual Student结构，使用2个结构相同但初始化不同的学生网络结构，鼓励2个网络在同时通过梯度下降更新参数的情况下，针对增强后的图像给出一致的输出。n-CPS［35］方法在CPS的基础上进一步发展，将双网络结构进一步拓展为多网络架构，通过多个网络间的一致性正则化，提高半监督语义分割的性能。

GCT［29］方法在2个学生网络的基础上，增加了1个缺陷检测器，通过修正预测中缺陷的方式生成更高质量的伪标签，从而加强对无标签数据的监督。MGD［38］方法借鉴了知识蒸馏领域的方式，其训练框架包括2个结构上互补的教师网络和1个学生网络。

对于无标签数据，除了使用来自2个教师网络的伪标签进行监督外，还针对每个教师网络分别设计了图像级语义损失和区域级上下文损失，从多个粒度进行监督。CTT［37］方法提出一种包含2个教师网络和2个学生网络的方案，其核心是一个跨教师网络一致性模块，即每个学生网络都受到来自另一个学生网络维护的教师网络的约束。

此外，该方法还提出一种互补的对比学习策略：高层对比学习模块将高质量知识传递给无标签数据，并在特征空间中促进类别分离；而底层对比学习模块鼓励同级网络中的低质量特征从高质量特征中学习。

2.3 基于多阶段架构的方法

利用多阶段架构（Multi-stages Architecture）进行模型训练是一种非常直观的利用无标签数据的学习范式，也是深度学习中一种常见的基础方法，多阶段架构见图2.在半监督语义分割任务中，其训练过程通常被分为2个阶段：①使用有标注的数据集训练一个初始模型，并使用该初始模型对无标签数据进行预测，得到伪标签（Pseudo Label）；②将有标签数据和无标签数据合并为新的增强数据集，利用伪标签让模型进行有监督学习。这一范式旨在利用训练好的模型挖掘无标签数据上的有效知识，从而提升模型的效果。

图2 多阶段架构

尽管这种范式简单而有效，但是其效果受限于第一阶段中初始模型的性能和第二阶段中生成的伪标签质量，一方面无法充分挖掘无标签数据中的信息，另一方面在第二阶段中错误的预测会在第三阶段训练中对模型造成误导，导致最终训练出的模型出现更多预测错误。这种现象被称为确信偏置（Confirmation Bias），是亟待解决的重要问题。

3-stage ST［30］是一种典型的基于多阶段架构的自学习（Self-training）的方法。该方法在双阶段范式的基础上，增加了一个多网络架构训练阶段，该阶段在挖掘伪标签的丰富语义信息的同时保证数据扰动上的一致性。该方法同时利用Mean Teacher结构进行正则化，尝试将多网络和多阶段架构的优势集中到同一个模型中，提升其预测的伪标签的质量。

SimpleBaseline［34］是一个更加简单的多阶段基线方法，把数据扰动和多阶段架构相结合，利用弱扰动数据下生成的伪标签对强扰动数据下得到的预测进行监督。该方法利用多轮迭代的方式，每一轮生成弱标签的模型都是上一轮被监督的模型，从而进一步提升伪标签的质量。此外，该方法还提出了分布特定的批标准化，以防止弱扰动和强扰动的数据分布对批标准化的混淆，使用反转交叉熵损失函数以缓解伪标签中的噪声对模型性能产生的影响。

ST++［8］是在SimpleBaseline方法的基础上提出的更简单的基线方法，只需要3轮迭代就能达到足够好的效果：第一轮用有标签数据训练的模型生成伪标签，并利用训练中预测的稳定度作为标准选取质量较高的伪标签进行第二轮模型的训练；第二轮训练的模型会为所有无标签数据赋上伪标签，用于第三轮的训练。

不同于以上尝试在无标签数据中挖掘更多信息的方法，CISC-R［32］专注于挖掘跨图像语义一致性（Cross-image Semantic Consistency， CISC），即通过计算无标签数据和查询到的有标签数据之间的像素级相似性，生成一个跨图像语义一致性图，用于指导像素级伪标签的修正。该方法使用基于CISC的图像选择方法，划分出可靠的和不可靠的无标签数据，并进行阶段性的重新训练。这种训练过程能够实现图像级可靠的伪标签选择，从而更有效地利用无标签图像。

ELN［41］方法设计了一个额外的错误定位模块。该模块将图像和预测结果作为输入，尝试判断预测中可能出错的像素位置，进而达到错误定位的目的。在训练过程中忽略这些错误的区域，可缓解确信偏置对模型性能造成的不良影响。

2.4 基于单阶段端到端架构的方法

基于多网络架构和基于多阶段架构的方法都增加了模型训练成本，导致研究者需要在模型性能和训练成本之间进行权衡。因此，自从FixMatch［56］方法提出一种单阶段的端到端的训练范式并成为半监督分类任务的主流后，很多半监督语义分割任务受其启发也开始设计更简便高效的网络结构。单阶段端到端架构仅包含一个网络，并且仅需一次训练就能完成整个训练过程，如图3所示。

图3 单阶段端到端架构

PseudoSeg［31］方法在FixMatch的基础上，将分割模型预测与类激活图（Class Activation Map， CAM）融合，实现了一个单网络单阶段的半监督语义分割训练框架。该工作指出，通过置信度阈值直接得到的可靠像素的数量和质量都较低，会影响在线生成的伪标签质量。因此，该工作借助弱监督语义分割任务中常用的类激活图，将其视为一种判断机制来弥补伪标签的潜在误差。

PC2Seg［49］方法是在强图像增强分支和弱图像增强分支的交叉熵损失的基础上，进一步考虑无标签数据在特征空间的对比性质，即模型应该能够将视觉上相似的像素组合在一起，同时将它们与视觉上不相似的像素区分开。这种对比属性使模型能够将像素正确地分类到语义类别中。因此，该工作拓展了InfoNCE［57］对比学习损失，结合采样自特征空间的正负样本设计了像素级的对比学习损失，从而减少模型的错误预测。

UniMatch［43］和CorrMatch［9］均使用单阶段端到端的训练模式。其中，UniMatch将数据增强和特征增强分为独立的数据流，通过单阶段端到端的训练范式使这些数据流的输出与弱数据增强的数据流的输出对齐，大幅提高了半监督语义分割任务的基准线。该方案的成功说明使用单阶段方法足以取得优秀的性能，为半监督语义分割模型提供了新的设计思路。

同样是基于单阶段端到端架构的方法， CorrMatch［9］方法专注于挖掘更多可靠的高置信度区域，从而获得更优质的在线伪标签。该方法利用编码器提取出的语义特征，借助相关性图（Correlation Map）构建的像素间类别无关的语义相似性，提出了像素标签传播和区域标签传播2种策略，将相关性图中蕴含的形状信息传播到伪标签中，提高了模型整体的置信度，进而挖掘出更多更准确的伪标签。CorrMatch能够在扩展高置信度区域的同时使更多正确预测的像素被视为有效伪标签，目前在主流的半监督语义分割基准中取得了最好的性能。

性能分析

3.1 一般设定与评价指标

目前半监督语义分割的主流方法为基于多网络架构、基于多阶段架构和基于单阶段端到端架构的方法。为进行方法间的公平比较，除了数据集外，模型和训练也需要进行普适的设定。半监督语义分割方法一般选用DeepLabv3+模型［13］作为基础分割模型，并采用ResNet101［11］作为骨干网络。在模型训练阶段，主流的设定［7-9，22-23，28-50］采用随机梯度下降（Stochastic Gradient Descent， SGD）优化器，梯度衰减设置为0.0001.对于PASCAL VOC 2012数据集，初始化学习率一般设定为0.001，批次大小为16，共训练80个周期；对于Cityscapes数据集，初始化学习率一般设定为0.005，批次大小为16，共训练240个周期；对于MS COCO数据集，初始化学习率一般设定为0.004，批次大小为16，共训练30个周期。

在评价指标方面，与绝大多数全监督和半监督语义分割任务相同，使用平均交并比（mean Intersection-over-Union， mIoU）作为评价指标。在模型验证时，对于PASCAL VOC 2012数据集，使用原始图像进行验证；对于Cityscapes数据集，采用滑动窗口的方法进行验证。同时，如无特殊说明，所有的验证都是在单一尺度下进行的。

3.2 PASCAL VOC 2012 (classic)

在PASCAL VOC 2012 （classic）设定下，一些有代表性的最先进方法的mIoU性能比较，如表3所示。由表3可知：①近年来半监督语义分割的性能获得了极大提升。②基于多网络架构的方法和基于多阶段架构的方法作为在UniMatch［43］和CorrMatch［9］前的主流方法，均取得了较好的性能。例如，相较于仅使用有监督的方法，基于多阶段架构的方法ST++［8］在不同的数据划分基准上分别取得了19.8%、16.3%、9.2%、5.8%以及6.7%的性能提升，基于多网络架构的PS-MT［42］方法也取得了20.4%、14.9%、11.2%、6.9%以及7.6%的性能提升。③基于单阶段端到端架构的方法使用简便的方法达到了最先进的性能，并且在数据量极少的场景下性能提升非常明显。在仅使用92张有标签数据的设定下，UniMatch相较于PCR，mIoU提升了5.1%；CorrMatch相较于UniMatch，mIoU又取得了1.2%的提升，达到了76.4%。

表3 PASCAL VOC 2012 (classic) 设定下各方法的mIoU比较 (%)

3.3 PASCAL VOC 2012 (blender)

在2种PASCAL VOC 2012 （blender）设定下，一些有代表性的最先进方法的mIoU性能比较如表4和表5所示，表4和表5分别使用的是CPS［22］和U2PL［23］给出的划分方式。

表4 PASCAL VOC 2012 (blender) 设定下使用CPS划分方式时各方法mIoU的比较(%)

表5 PASCAL VOC 2012 (blender) 设定下使用U2PL划分方式时各方法mIoU的比较(%)

由表4和表5可知：

①与classic设定下的趋势相同，在blender设定下，各类方法的性能也有了显著的提升。同时，与基于多网络架构的方法和基于多阶段架构的方法相比，基于单阶段端到端架构的方法也取得了最好的性能。

②使用CPS划分方式时，相较于仅使用有监督的方法，CorrMatch［9］分别取得了10.9%、8.2%以及5.4%的性能提升。

③由于U2PL划分尽可能包括了人工标注的高质量标签，在该划分方式下的方法性能显著高于在CPS随机划分方式下的方法性能。

④在U2PL划分场景下，当划分比例从1/8提升到1/4时，性能提升很小，甚至会出现下降的情况。

造成这种现象的原因是：在划分比例为1/8时，几乎包含了所有精确标记的图像，当划分比例提升至1/4时，新添加的图像大部分都是粗略标记的，导致性能没有任何提升，有些不准确的粗略标注甚至会误导模型训练，从而使模型性能降低。因此，对于半监督语义分割，有标签数据的数量和质量都至关重要。

3.4 Cityscapes数据集

表6给出了在Cityscapes数据集下，一些有代表性的最先进方法的mIoU性能比较。由表6可知：①基于多网络架构和基于多阶段架构的方法，相较于仅使用有监督的方式，性能都有一定的提升。例如，相较于仅使用有监督的方式，PS-MT［42］的mIoU在1/8、1/4以及1/2的设置下分别有4.4%、3.2%以及1.3%的增益；PCR［50］的mIoU在1/16的数据划分下，取得了7.7%的大幅提升。②UniMatch［43］和CorrMatch［9］等方法在单阶段的设置下具有更优秀的性能，mIoU在所有的设置下均高于上述2个方法。因此，单阶段端到端方法在性能上具有优越性，对半监督语义分割在未来的发展有指导作用。

表6 Cityscapes数据集下各方法mIoU的比较 (%)

3.5 MS COCO数据集

表7给出了在MS COCO数据集下，一些代表性方法的mIoU性能比较。由于MS COCO数据集包含大量图像和81个类别，具有更大的挑战性，因此目前仅有较少的半监督语义分割方法选择在该数据集上进行性能验证。

由表7可知：①所有方法在该数据集上取得的mIoU性能相较于在PASCAL VOC 2012数据集和Cityscapes数据集上的性能都明显较低。②相较于仅使用有监督的方法，半监督语义分割方法的性能有明显的提升。例如，相较于仅使用有监督的方式，PseudoSeg［31］方法的mIoU在划分比例为1/512、1/256、1/128、1/64以及1/32的情况下分别有6.9%、9.1%、5.5%、4.0%以及1.4%的增益。近期方法UniMatch［43］的mIoU，在划分比例为1/32的情况下，取得了7.6%的大幅提升。

表7 MS COCO数据集下各方法mIoU的比较 (%)

未来研究方向

随着深度学习技术的发展，半监督语义分割在方法和性能上都得到了长足有效的发展。在半监督语义分割任务已经临近性能瓶颈的当下，有必要对其未来可能的研究方向进行探讨。

1）基础模型结构。

为与其他方法进行公平比较，现有研究大多使用相同的基础模型结构，即使用ResNet101［11］作为骨干网络，Deeplabv3+［13］作为分割器。然而，最近提出的基于CNN的SegNext［58］，基于Transformer的SegFomer［59］、Maskformer［60］等网络在语义分割领域展现了出色的性能。因此，使用更先进的基础模型结构可能是进一步提高半监督语义分割任务基准的关键因素。此外，除了在现有网络上应用半监督学习策略，为半监督语义分割任务设计专门的网络结构，也是亟待探索的研究方向。

2）单阶段端到端架构的潜在能力。

单阶段端到端的方法相比于基于多网络和多阶段架构的方法降低了模型的训练成本，仅需一次训练就能完成整个训练过程，在性能上也有很大优势。然而，目前该类方法数量相对较少，开发并不充分，存在很大的发掘潜力。如何在单阶段端到端的框架下设计更有效的半监督策略，进而在训练过程中在线生成更精准的伪标签，是未来探索中值得重视的研究方向。

3）有标签数据的长尾分布问题。

对于半监督语义分割任务，有标签数据的数量和选取方式会对分类性能产生很大的影响。同时，在大多数情况下，采样得到的半监督语义分割数据集的类别分布并不均匀，例如在PSACL VOC 2012数据集中背景类在图像中占据大部分像素。在Cityscapes数据集中，复杂的场景也导致类别之间数量不平衡，从而呈现长尾分布，如traffic light、traffic sign等类别对应的像素数量非常有限，而train、motorcycle等类别，只在一小部分图像中出现。长尾分布现象导致半监督语义分割对部分类别的分割性能较差。因此，如何更均衡地从数据集中采样数据以及如何平衡训练过程中长尾类别像素的占比将成为半监督语义分割任务的未来研究方向之一。

4）与先进大模型结合。

随着如GPT-3/4［61-62］、SAM［63］、Diffusion［64-65］等先进模型的提出和发展，人工智能领域进入新的阶段。这些先进模型拥有较大的参数量或者在训练时有海量数据的参与，在其代表任务中表现出惊人的性能。同时，这类模型拥有很好的信息编码能力，例如大语言模型对语义信息有很好的建模能力，SAM拥有极强的对物体形状和边缘信息的感知能力，因此已在一些语义分割任务场景中得到了应用。在未来的研究中，如何将半监督语义分割与这类先进模型进行融合，将是进一步提升模型性能的关键。

结论

半监督语义分割作为计算机视觉领域中的重要任务，具有很强的理论意义和实际应用价值。本文围绕半监督语义分割领域的常用数据集和半监督语义分割方法进行了综述，对进入深度学习时代以来的半监督语义分割性能对比基准和使用了不同训练范式的方法进行了详细的梳理和总结，对比了代表性方法在不同基准上的性能表现，并对半监督语义分割领域面临的挑战和未来可能的研究方向进行了讨论。

1）总结半监督语义分割中常用的数据集，并根据已有工作归纳主流的公平对比基准。在常用数据集中，由于PASCAL VOC 2012数据集是被半监督语义分割算法采用最多、测试划分最详细的数据集，因此该数据集的基准成为半监督语义分割领域中最通用、说服力最强的测试基准；虽然Cityscapes数据集的图像数量不多，但图像中复杂的场景和大量小目标的存在，使其相对PASCAL VOC 2012数据集更有挑战性，因此更能展现出模型在相对更复杂场景下的性能；MS COCO由于拥有更大的图像规模和更多的类别，对于半监督语义分割方法具有极大的挑战性，因此能够更有效地测试方法的有效性和鲁棒性。

2）依据训练范式对半监督语义分割进行分类。现有的半监督语义分割算法可根据是否使用对抗学习、训练过程中是否涉及多个神经网络或训练阶段分为基于对抗学习的方法、基于多网络架构的方法、基于多阶段架构的方法以及单阶段端到端的方法4类。其中，最新的单阶段端到端的方法由于其简洁的训练框架和优于其他训练范式的性能，成为半监督语义分割算法的主流。

3）依据总结的公平对比基准，对半监督语义分割的代表性方法进行性能比较。结果表明，有标签数据的数量和质量对于半监督语义分割至关重要，随着高质量标注数据的数量增加，半监督语义分割方法的性能也不断上升。在不同数据集划分基准上，相比于最先提出的基于对抗学习的方法，基于多网络架构的方法和基于多阶段架构的方法都取得了更好的性能，单阶段端到端的方法以更简单的训练范式，取得了更先进的性能。

4）结合深度学习技术的发展和半监督语义分割面临的挑战，从基础模型结构、单阶段端到端架构的潜在能力、有标签数据的长尾分布问题以及与先进大模型结合4方面分析得到未来可能的研究方向。