用于语义分割的解码器去噪预训练

用于语义分割的解码器去噪预处理

(何等，2016))逐渐降低特征图的分辨率。因此，为了进行像素级预测，解码器需要将样本恢复到像素级。大多数高级语义分割模型不预先训练由解码器引入的附加参数并随机初始化它们。在本文中，我们认为解码器的随机初始化远非最优，通过简单但有效的去噪方法预训练解码器权重可以显著提高性能。

自动去噪编码器在机器学习方面有着悠久而丰富的历史(Vincent et al .，2008；2010)。一般的方法是在干净数据中加入噪声，训练模型将噪声数据分离回干净数据和噪声成分，这就需要模型学习数据分布。去噪目标非常适合于训练密集预测模型，因为它们可以容易地在像素级定义。虽然去噪的思想有很长的历史，但去噪的目标最近在去噪扩散概率模型(DPM)的背景下引起了新的兴趣。(Sohl Dickstein等人，2015；宋& amp埃尔蒙，2019；Ho等人，2020年)。DPMs通过一系列迭代去噪步骤学习，将高斯噪声转化为目标分布，从而逼近复杂的经验分布。这种方法在图像和音频合成方面取得了令人印象深刻的效果(Nichol & amp；Dhariwal，2021；德里瓦尔& amp尼科尔，2021；撒哈拉等，2021b；何等，2021；陈等，2021b)，在样本质量评分上优于强GAN和自回归基线。

受扩散模型中去噪的新兴趣和成功的启发，我们研究了去噪自动编码器在语义分割中学习的表示的有效性，特别是对于通常随机初始化的预训练解码器权重。

总之，本文研究了语义分割架构中解码器的预训练，发现通过随机初始化可以获得显著的收益，尤其是在有限的标注数据设置中。我们建议使用去噪进行解码器预训练，并将去噪自动编码器连接到扩散概率模型，以改善去噪预训练的各个方面，例如在去噪目标中预测噪声而不是图像，以及在添加高斯噪声之前缩放图像。这导致在三个数据集上编码器的标准监督预训练中的显著改进。

在第二部分中，我们简要总结了常规去噪预训练的细节，然后对其进行深入研究。

部分3和部分4中的解码器对预训练进行降噪。

第五节介绍了与最新方法的实证比较。

2种方法

我们的目标是学习可以很好地转移到密集视觉预测任务的图像表示。我们考虑由编码器fθ和解码器gφ组成的架构，它由两组参数θ和φ参数化。该模型以图像X为输入∈ R H×W×C，将其转换为稠密表示y∈ R h×w×c，比如语义分割掩膜。

我们希望找到一种方法来初始化参数θ和φ，使模型能够通过几个标记样本有效地进行语义切分的微调。对于编码器参数θ，我们可以根据标准实践在分类期间通过使用预训练的权重来初始化它们。我们的主要贡献涉及解码器参数φ，它通常是随机初始化的。我们建议将这些参数预先训练为去噪自动编码器(Vincent等人，2008；2010):给定一幅未标记的图像X，我们将高斯噪声σc和固定标准差σ加到X上，得到一幅带噪图像xe，然后将模型训练为自动编码器gφ？Fθ最小化重建误差kgφ(fθ(xe))？Xk 2 2(只优化φ，保持θ不变)。我们称这种方法为解码器去噪预训练(DDeP)。或者，φ和θ都可以去噪(去噪预训练；DeP)进行培训。接下来，我们将讨论对标准自动编码器公式的几个重要修改，这些修改将显著提高表示的质量。

作为我们的实验装置，我们使用了Transune(陈等(2021A))；图2)。编码器按照ImageNet-21k(邓等，2009)的分类进行预训练，而解码器采用我们的去噪方法进行预训练，同样使用ImageNet-21k无标注图像。经过预训练后，根据城市景观、Pascal上下文或ADE20K语义分割数据集对模型进行微调(Cordts et al .，2016；莫塔吉等人，2014；周等，2018)。我们报告了所有语义类别的平均交集比率(mIoU)。在第5.1节中描述了进一步的实施细节。

图1表明，我们的DDeP方法明显优于只对编码器进行预训练的方法，尤其是在小样本的情况下。图6示出了即使是DeP，即在没有任何监督预训练的情况下预训练整个模型(编码器和解码器),也可以与监督预训练竞争。我们的结果表明，虽然去噪预训练简单，但它是一种学习语义分割表示的有效方法。

编码器和解码器去噪的预训练

如上所述，我们的目标是学习有效的视觉表示，可以很好地转换为语义分割和其他密集的视觉预测任务。我们重新审视去噪的目标，以实现这一目标。首先，我们介绍了标准去噪自动编码器的公式(用于编码器和解码器)。然后，我们建议对标准公式进行一些修改，这些修改是由图像生成中扩散模型的最近成功所激发的(Ho等人，2020；尼科尔& ampDhariwal，2021；Saharia等人，2021b)。

3.1标准去噪目标

在标准去噪自动编码器的公式中，给定一个未标记的图像X，我们通过添加高斯噪声σc和固定标准差σx得到一个带噪图像xe，

然后我们训练一个自动编码器gφ？Fθ最小化重建误差kgφ(fθ(xe))？xk 2 .因此，目标函数采用以下形式。

虽然这个目标函数已经为语义分割产生了有用的表示，但是我们发现一些关键的修改可以显著地提高表示的质量。

3.2目标中去噪目标的选择

使用标准去噪自动编码器目标训练模型来预测无噪声图像x .然而，通常训练扩散模型来预测噪声向量c(Vincent，2011；Ho等人，2020年):

对于从输入xe到输出有跳转连接的模型，这两个公式的行为类似。在这种情况下，模型可以很容易地将其对c的估计与输入xe相结合，以获得x。

但在没有明确跳转连接的情况下，我们的实验表明，噪声向量的预测明显好于无噪声图像的预测(表1)。

3.3去噪作为预训练目标的可扩展性

无监督的预训练方法最终将受到预训练目标所学习的表征与最终目标任务所要求的表征之间不匹配的限制。对于任何无监督的目标，一个重要的“合理性检查”是它不会很快达到这个限制，以确保它与目标任务很好地一致。我们发现，通过去噪进行学习的表示将继续增加到我们最大可行的训练前计算预算(图3)。这说明去噪是一种可扩展的方法，而且质量会随着计算预算的增加而不断提高。

3.4去噪和监督前培训

在去噪自动编码器的标准公式中，通过去噪来训练整个模型(编码器和解码器)。但至少在微调数据丰富的情况下，整个模型的去噪预训练性能不如编码器的标准监督预训练(表2)。在下一节中，我们将探索去噪和监督预训练的结合，以获得两者的好处。

4.仅预训练解码器进行去噪。

事实上，由于存在用于预训练编码器权重的强大且可扩展的方法，去噪的主要潜力在于预训练解码器权重。因此，我们将编码器参数θ固定在ImageNet-21k上监督预训练得到的值上，仅对解码器参数φ进行预训练和去噪，从而达到以下目的:

我们称这种预训练方案为解码器去噪预训练(DDeP)。如下图所示，在所有的标注效率机制中，DDeP的性能要优于纯监督或纯去噪预训练。在第5节给出基准测试结果之前，我们研究了DDeP的关键设计决策，如本节中的噪声公式和最佳噪声水平。

4.1噪声大小和图像与噪声的相对比率

解码器去噪预训练的关键超参数是添加到图像中的噪声。噪声方差σ必须足够大，网络必须学习有意义的图像表示才能去除，但也不能太大，导致干净图像和有噪图像之间的分布偏差过大。为了直观检查，图4显示了σ的几个样本值。

除了噪声的绝对大小，我们还发现干净图像和噪声图像的相对缩放也起着重要的作用。不同的去噪方法在这方面是不同的。具体来说，DDPM产生一个噪声图像xe as。

这与等式(1)中的标准去噪公式不同，因为X衰减为√γ，C衰减为√ 1。γ来保证如果x的方差为1，则随机变量xe的方差为1。使用该公式，我们的去噪预训练目标变为:

在图5中，我们将这个缩放的加性噪声公式与简单的加性噪声公式(公式(1))进行比较，并且发现缩放图像可以显著提高下游语义分割性能。我们推测噪声图像的方差和噪声大小的解耦减少了干净图像和噪声图像之间的分布偏差，从而改善了预训练表征向最终任务的转移。因此，这个公式将在本文的其余部分使用。我们发现，对于缩放后的加性噪声公式，最佳噪声幅度为0.22(图5)，并在以下实验中使用了该值。

4.2训练前数据集的选择

原则上，任何图像数据集都可以用于去噪预训练。理想情况下，我们希望使用大型数据集(如ImageNet)进行预训练，但这带来了一个潜在的问题，即预训练数据和目标数据之间的分布变化可能会影响目标任务的性能。为了验证这一点，我们对比了解码器在几个数据集上的预训练，而编码器在ImageNet-21K上的预训练保持分类目标不变。我们发现，对于所有测试数据集(城市景观、Pascal上下文和ADE20K；表3)，在ImageNet-21K上对解码器进行预训练的效果要比在目标数据上好。值得注意的是，这甚至适用于城市景观，在图像分布上与ImageNet-21k有显著差异。因此，在一般图像数据集上使用DDeP预训练的模型通常适用于广泛的目标数据集。

4.3解码器变体

考虑到解码器去噪的预训练显著提高了解码器的随机初始化，我们假设这种方法可以将解码器的规模扩展到使用随机初始化时好处减少的程度。我们通过在解码器的每个阶段改变特征映射的数量来测试这一点。我们所有实验的默认(1×)解码器配置是[1024，512，256，128，64]，其中索引I处的值对应于第I个解码器块处的特征映射的数量。这反映在图2中。在Cityscapes上，我们尝试将所有解码器层的默认宽度增加一倍(2倍)，而在Pascal context和ADE20K上，我们尝试将宽度增加一倍(3倍)。虽然较大的解码器通常会提高性能，即使在随机初始化期间，DDeP在所有情况下都会带来额外的增益。因此，DDeP可以开启新的解码器密集型架构。第五节给出了1×译码器和2×3×译码器的主要结果。

4.4扩散过程的扩展

如上所述，我们发现，通过调整标准自动编码器公式的某些方面，如预测目标的选择以及图像和噪声的相对缩放，可以改进预训练表示，使其更类似于扩散模型。这就提出了一个问题，即是否可以通过使用总扩散过程的预训练来进一步改善表征。在这里，我们研究了使这种方法更接近于在DDPM使用的完全扩散过程的扩展，但是发现它们没有改进上述简单方法的结果。

可变噪声表。

因为它使用单个固定噪声水平(等式(6)中的γ)，所以我们的方法对应于扩散过程中的单个步骤。完整的DDPMs通过从每个训练样本的[0，1]中随机均匀地采样噪声幅度γ，模拟了从干净图像到纯噪声(反之亦然)的完整扩散过程(Ho et al .，2020)。因此，我们也对随机采样的γ进行了实验，但发现固定的γ表现最好(表4)。

调节噪音水平。

在扩散形式中，模型表示从一个噪声水平到下一个噪声水平的(逆)转换函数，因此它以当前噪声水平为条件。实际上，这是通过将采样的γ作为每个训练样本的附加模型输入提供给例如归一化层来实现的。由于我们通常使用固定的噪声水平，我们的方法不需要调整。当使用可变噪声计划时，调整不会提供任何改进。

噪声水平加权。

在DDPM，不同噪声水平在损失中的相对权重对样本质量有很大影响(Ho等人，2020)。因为我们的实验表明，学习可转移表示不需要多个噪声水平，所以我们没有对不同噪声水平的权重进行实验，但请注意，这可能是未来研究的一个有趣方向。

5项基准测试结果

我们在几个语义切分数据集上评估了所提出的解码器去噪预训练(DDeP)的有效性，并进行了标注效率实验。

5.1实施细则

对于语义分割任务的预训练模型的下游微调，我们使用标准的逐像素交叉熵损失。我们用亚当(国王马&；Ba，2015)优化器和余弦学习率衰减计划。对于解码器去噪(DDeP)的预训练，我们使用512的批量大小，训练100个历元。学习速度6e？5用于1x和3x宽度解码器，1e？4用于2倍宽度解码器。

在目标语义分割任务中对预训练模型进行微调时，我们扫一扫权重衰减和学习率值[1e？5，3e？4]并为每项任务选择最佳组合。对于100%设置，我们报告所有数据集上10次运行的平均值。在Pascal上下文和ADE20K中，我们还报告了10次运行(不同子集)的平均值，其中1%、5%和10%标记了分数，5次运行的平均值设置为20%。在城市景观上，我们报告了1/30设置下10次运行的平均值、1/8设置下接下来6次运行的平均值和1/4设置下接下来4次运行的平均值。

在训练过程中，对图像及其对应的分割模板应用随机裁剪和随机左右翻转。对于城市景观，我们随机将图像裁剪为1024×1024的固定大小，对于ADE20K和Pascal上下文，我们将图像裁剪为512×512的固定大小。解码器去噪的所有预训练操作都以224×224的分辨率进行。

在城市景观推断过程中，将全分辨率1024×2048影像分为1024×1024两个输入斑块进行评价。我们使用水平翻转并平均每一半的结果。两半部分串联连接，产生全分辨率输出。对于Pascal Context和ADE20K，除了水平翻转，我们还对图像的重新缩放版本使用多尺度评估。使用的比例因子是(0.5，0.75，1.0，1.25，1.5，1.75)。

5.2解码器预训练的性能增益

在城市景观方面，DDeP优于DeP和有监督的预培训。在图6中，我们报告了DeP和DDeP在城市景观上的结果，并与随机初始化或使用ImageNet-21K预训练编码器的训练结果进行了比较。DeP结果使用缩放的加性噪声公式(等式(5))，并且与通过标准降噪目标获得的结果相比，性能显著提高。

如图6所示，在1%和5%注释图像设置中，DeP优于监督基线。对于1×和2×解码器变体，解码器去噪预训练(DDeP)比DeP和ImageNet-21K监督预训练进一步改进(表6)。

如表5.2所示，DDeP在所有标注得分上均优于之前提出的有效的城市景观标注语义分割方法。DDeP只有25%的训练数据，在完整数据集上训练时比最强基线方法PC2Seg(Zhong et al .，2021)具有更好的分割效果。与最近的工作不同，我们不对城市景观进行多尺度评估，这将导致进一步的改进。

DDeP还改进了Pascal上下文数据集上的监督预训练。图1比较了DDeP在1%、5%、10%、20%和100%训练数据上与监督基线和Pascal的性能。表5.2将这些结果与使用3x解码器获得的结果进行了比较。对于1×和3×解码器，DDeP的性能在架构上明显优于同监督模型，在所有半监督设置下均获得了4-12%的mIOU提升。值得注意的是，仅使用10%标签，DDeP优于20%标签训练的监督模型。

图7显示了ADE20K数据集上DDeP的类似改进。我们再次看到，在5%和10%的设置中，收益超过10个点，在1%的设置中，收益超过5个点。这些一致的结果证明了DDeP在数据集和训练集规模上的有效性。

我们用的是Transune(陈等(2021a))；)对于以上结果。图2)最大性能的架构，但DDeP与主干无关，与更简单的主干架构配合使用时也会带来好处。在表7中，我们在Pascal环境中用ResNet50编码器和DDeP(无多尺度评估)训练了一个标准U-Net。DDeP在所有设置中都优于监控基线，这表明我们的方法超越了transformer架构。

6相关工作

由于为语义分割收集详细的像素级标注昂贵、耗时且容易出错，因此已经提出了许多方法来从较少的标注样本实现语义分割(Tarvainen &: Valpola，2017；宫藤等人，2018；洪等，2018；米塔尔等人，2021；French等人，2019；奥阿利等人，2020；邹等，2021；冯等，2020b柯等，2020；奥尔森等人，2021；钟等，2021).这些方法通常求助于半监督学习(SSL)(Chapelle等人，2006；范·恩格伦& ampHoos，2020)，在这种学习中，除了有标签的训练数据，还假设可以访问大量无标签的图像数据集。在接下来的内容中，我们将讨论之前关于强数据增强、模型生成、自训练和自监督学习在标注有效语义分割中的作用的工作。虽然这项工作集中于自我监测预训练，但我们认为，强大的数据增强和自我训练可以与所提出的去噪预训练方法相结合，以进一步改善结果。

数据增强。

French等人(French等人，2019)证明了Cutout(dev ries & amp；Taylor (2017)和CutMix(Yun et al .，2019)等强大的数据增强技术，对于少数标注样本的语义切分特别有效。Ghiasi等人(2021)发现简单的复制粘贴增强有助于实例分割。前期工作(Remez等人，2018；陈等，2019；比尔斯基& amp法瓦罗，2019；阿兰杰洛维？& ampZisserman (2019)还通过将不同的前景和背景区域与GANs(Goodfello et al .，2014)相结合，探索了完全无监督的语义分割。我们使用相对简单的数据增强，包括水平翻转和随机初始裁剪(Szegedy等人，2015)。用更强大的数据来提升留给未来的工作。

生成模型。

在标记有效语义切分的早期工作中，使用GANs生成合成训练数据(Souly et al .，2017)，区分真实和预测切分掩码(Hung et al .，2018；米塔尔等人，2021).DatasetGAN(张等，2021)表明，现代GAN架构(Karras等，2019)在生成合成数据以帮助像素级图像理解方面是有效的，但此时只有少数标记图像可用。我们的方法与扩散和分数代模型高度相关(Sohl Dickstein等人，2015；宋& amp埃尔蒙，2019；Ho et al .，2020)，它代表了新一代的模型族，比Gans(Dhariwal & amp；尼科尔，2021；何等，2021).这些模型通过去噪得分匹配与去噪自动编码器连接(Vincent，2011)，可以看作是训练基于能量的模型的一种方法(Hyv？里宁& amp达扬，2005年).去噪扩散模型()最近被应用于超分辨率、着色和复原等条件生成任务(李等，2021；撒哈拉等，2021b；；宋等，2021；Saharia等人，2021a)，表明这些模型可能能够学习有用的图像表示。我们从DDPM的成功中得到启发，但是我们发现DDPM的很多成分并不是必须的，简单的去噪预训练有很好的效果。扩散模型已经用于迭代优化语义分割掩模(Amit等人，2021；Hoogeboom等人，2021)。Baranchuk等人(Baranchuk等人，2021)证明了扩散模型学习到的特征在语义切分中是有效的，并且这些特征来自少数标记样本。相比之下，我们使用简单的去噪预训练进行表示学习，并研究编码器-解码器架构的完整微调，而不是提取固定特征。此外，我们使用成熟的基准将我们的结果与以前的工作进行比较。

自我训练，一致性标准化。

自训练(自学习或伪标记)是最古老的SSL算法之一(Scudder，1965；弗拉利克，1967；阿格拉瓦拉，1970；亚罗斯基，1995).它的工作原理是使用一个初始的监督模型，用所谓的伪标记标注未标记数据，然后使用伪标记和人工标记数据的混合来训练改进的模型。这个迭代过程可以重复多次。自我训练已被用于改善目标检测(罗森伯格等人，2005年；Zoph等，2020)和语义切分(朱等，2020；邹等，2021；冯等，2020a；陈等，2020a)。一致性正则化与自训练密切相关，增强了图像增强过程中预测的一致性(French et al .，2019；金等人，2020；奥阿利等人，2020年).这些方法通常需要仔细调整超参数和合理的初始模型，以避免传播噪声。将自训练与去噪预训练相结合可以进一步改善结果。

自我监督学习。

自监督学习方法可以生成预测性的借口任务，这种任务很容易从未标记的数据中构建，并且有利于下游的差异化任务。在自然语言处理(NLP)中，掩蔽语言建模的任务(Devlin et al .，2019；刘等，2019；Raffel et al .，2020)已经成为事实上的标准，在NLP任务中表现出令人印象深刻的结果。在计算机视觉中，针对自监督学习提出了不同的借口任务，包括预测图像中相邻面片相对位置的任务(Doersch等人，2015)、修复的任务(Pathak等人，2016)、解谜的任务(Noroozi & amp；，2016)，图像着色(张等，2016；Larsson等，2016)、旋转预测(Gidaris等，2018)等任务(张等，2017；卡隆等人，2018；科列斯尼科夫等人，2019).最近，基于样本辨别和比较学习的方法在图像分类中显示出有希望的结果(Oord等人，2018；Hjelm等人，2018；何等，2020；陈等，2020bc；Grill等人，2020年).这些方法已经被用于成功地预训练用于对象检测和分割的主干(he等人，2020；Chen et al .，2020d)，但与这项工作不同，他们通常随机初始化解码器参数。最近也出现了一系列基于掩蔽自动编码的方法，如(鲍等，2021)、MAE(何等，2021)等方法(周等，2021；董等，2021；陈等，2022)。我们注意到，我们的方法是为同时对这些掩模图像序列建模而开发的，我们的技术是正交的，因为我们关注解码器预训练，这不是上述论文的重点。

密集预测的自我监督学习。

Pinheiro et al.(2020)和Wang et al.(2021)提出了强化对比学习，这是一种针对强化预测任务的自我监督预训练方法。对比度学习应用于面片和像素级特征，而不是图像级特征。这使人想起阿姆迪姆(巴赫曼等人，2019)和CPC V2(海纳夫等人，2019)。钟等(2021)进一步考虑了这一思想，将图像的不同增强(可能是未标记的)模型输出之间的分割掩膜一致性与整体增强的像素级特征一致性结合起来。

视觉变形金刚。

受Transformer在NLP中的成功启发(Vaswani et al .，2017)，有出版物研究了卷积与自我注意的结合(Carion et al .，2020)，语义切分(Wang et al .，2018；2020b)和全景分割(王等，2020a)。vision Transformer(Vit)(Dosovitskiy等人，2021)证明了当有大量标记数据集可用时，反卷积方法可以产生令人印象深刻的结果。最近的研究探索了ViT作为语义分割的主干(郑等，2020；刘等；斯特鲁德尔等人，2021)。这些方法在解码器的结构上有所不同，但都显示了基于ViT的语义分割能力。我们使用混合ViT(Dosovitskiy et al .，2021)作为主干，其中将面片嵌入投影应用于从卷积特征图中提取的面片。我们研究了解码器的大小，发现较宽的解码器通常会改善语义分割结果。

7结论

受最近流行的图像合成扩散概率模型的启发，我们研究了这些模型在学习语义分割的有用的可转移表示中的有效性。令人惊讶的是，我们发现预训练语义分割模型作为自动去噪编码器可以大大提高语义分割的性能，尤其是在标记样本数量有限的情况下。基于这一观察，我们提出了一种两阶段预训练方法，其中监督预训练编码器与去噪预训练解码器相结合。这导致了数据集和训练集大小的一致收益，从而形成了可行的预训练方法。探索去噪预训练在其他密集预测任务中的应用也是有趣的。