make some notes for the paper named SegGAN
论文名称: Semantic Segmentation using Adversarial Networks
论文地址: https://arxiv.org/abs/1611.08408
在这篇论文中,作者首次将生成对抗网络(GAN)应用到语义分割中来。整个网络的框架如下图所示,这个网络由两部分组成。左边是一个分割器,就是一个普通的分割网络,作者根据不同的数据集选用了不同的结构。对于Stanford Background dataset,作者选用了multi-scale segmentation network, 而对于Pascal VOC 2012 dataset,作者选用了Dilated-8 architecture。 右边则是一个对抗网络,相当于GAN中的判别器。输入分别是Segmentor生成的label map或者是Ground truth。为了与生成label map的resolution相匹配(经过Convnet导致分辨率下降),Ground truth在输入进判别器之前要经过下采样。输出为0或1,0表示判别器预测为生成样本,1表示判别器预测为真实样本。通过这种对抗训练,可以使生成的label map与Ground truth保持高阶一致性(higher-order consistency)。
Tips: 高阶一致性是相对于低阶一致性来说的。像L1,L2损失就属于低阶一致性,因为它统计的是单独像素之间的数值差异再累加起来,而高阶一致性倾向一种整体的连续性,使生成的图像在视觉上看起来更逼近原始图像,正如SRGAN中所说的一样。
SegGAN采用的损失函数结合了多分类交叉熵损失和对抗损失,并用一个超参数$ \lambda
- Basic:普通的输入,即只有分割网络的输出结果。作者对比了加入RGB图像之后的结果,并没有太大的改进。选择这种输入的一个很直观的理由是,对抗网络可以根据你输入的label map中是只包含0和1或是有介于0和1之间的数来判断究竟是生成的label map还是Ground truth。
- Product:将RGB图片的三通道与分割器输出的C张label map分别相乘,得到3C张label map作为对抗网络的输入,具体实现过程如下图所示。
- Scaling:这个还没有看懂是什么意思,.......
以上讨论了不同的输入,作者也还比较了4种不同的网络的影响,分别是LargeFOV,LargeFOV-light,SmallFOV,SmallFOV-light。Large和small代表了卷积步长的大小和网络深浅的差异,进而影响感受野的大小(field-of-view)。而light则表示较之于之前的模型更轻量化的一个网络,具体表现为卷积通道数减少,这样训练起来会更有效率。
具体的实验结果如下图所示,看起来也是相当不错哦!特别是相对于没有经过对抗训练的网络,SegGAN能够更好的保证生成的label map在视觉上保持着高阶一致性。
Word and Expression:
- formulated as a dense labeling problem:语义分割是一个密集预测问题。
- a common property across all:所有共同的特征
- spatial contiguity:空间连续性 higher-order consistency:高阶一致性
- sidestep:避免,同avoid,obviate concurrently:同时
- in the sense that:某种意义上来说 follow-up:接下来的
- deterministic:确定性的 perturb:打扰,干扰
- indifferently:无差别地 rationale:理由,解释
- whereas:而,用法同while spurious:虚假的
- methodologically:从方法论上来说 more pronounced:更加明显的