Hermann Cain

CVPR2017 pix2pix 图像翻译

原文

代码

灰度图、线描图、彩图……图像有很多类型，将图像在多种类型之间转化，实际上可以理解为图像到图像的“翻译”——这就就是基于CGAN的pix2pix做的事情。以往每一种“翻译”都是一个独立的问题，需要用独特的方法解决。但pix2pix给出了处理这类问题的统一框架。

以往使用CNN解决此类问题时，需要专家知识——精心设计损失函数，不然效果会很差。对于使用者来说，不需要像以往那样调整各种复杂的参数才能达到最终效果；对于开发者来说，则不需要手动设计复杂的损失函数，模型自己会去学习。

虽然用的是已有的一些技术，但这篇文章仍然有较大贡献：

pix2pix框架也是博弈问题：

$$
\arg \min_G \max_D \mathcal L_{\rm cGAN}(G,D) + \lambda \mathcal L_{L1}(G)
$$

其中包含了一个L1正则化项（见后文解释）和CGAN的损失函数：

$$
\mathcal L_{\rm cGAN}(G,D) = \mathbb E_{x,y}[\log D(x,y)] + \mathbb E_{x,z}[\log(1-D(x,G(x,z))]
$$

其中$x$是输入图像（即条件），$y$是ground truth，$z$是随机噪声。

我觉得这个损失函数写的比CGAN最初的那篇论文里好多了。最初的论文里，使用$y$作为条件，$x$作为ground truth，但D判断生成数据时的项是$D(G(z|y))$，显然遗漏了条件，应该用$D(G(z|y)|y)$更恰当

CGAN

生成器G需要做两件事：

骗过判别器D（显然，在这里“骗过”指$x$到G生成的结果$G(x,z)$之间的映射看起来像$x$到$y$之间的映射）
生成的图像尽可能真实，这里使用L1增强真实性。L1损失常常会导致生成的图像模糊。GAN则会导致生成的图像有一些高频噪声。这二者一结合，就把高频特征和低频特征都给抓住了，不至于太模糊，又消除了噪声。所以才有了1中的正则化项：

$$
\mathcal L_{L1}(G) = \mathbb E_{x,y,z}[||y-G(x,z)||_1]
$$

CGAN最初用的是高斯噪声，但这里实践发现没有效果，因此使用的是dropout噪声。模型输出结果的随机性很小。论文也指出，如何设计出随机性更大的CGAN，仍然是个有待研究的问题。

以往的神经网络架采用编码器-解码器架构，所有信息都是逐层传递的。但输入输出其实应该信息共享，比如边角轮廓等。这里采用了U-Net架构，将编码器部分层的信息绕过最窄的编码层，直接传递到解码器的部分层。具体来说，将第i层拼接到第n-i层：

U-Net