ICLR 2021 | 协同调制生成对抗网络，轻松帮你实现任意大区域图像填充

MSRAsia | 2021-05-07 08:46:54 阅读：388

编者按：图像填充是深度学习领域内的一个热点任务。尽管现有方法对于小规模、稀疏区域的填充可以取得不错的效果，但对于大规模的缺失区域始终无能为力。为解决这一问题，微软亚洲研究院提出了协同调制生成式对抗网络——一种通用的方法，跨越了条件与无条件图像生成领域之间的鸿沟。这一方法不但能够高质量、多样地填充图像任意规模的缺失区域，同时也能被应用于更广泛的图像转换任务。此外，考虑到图像填充领域内缺乏良好的指标，研究员们还提出了配对/无配对感知器辨别分数（P-IDS/U-IDS）以更加鲁棒、直观、合理地衡量模型性能。该相关工作已被 ICLR 2021 接受为 Spotlight Presentation。

如何对残缺图像进行修复？传统方法需要使用修图软件中的画笔、图章、加深减淡……等工具，如果有美观/美颜的需求，还得请“专家”上手。近日，微软亚洲研究院的研究员们在 ICLR 2021 大会上发表了一项工作：“Large Scale Image Completion via Co-Modulated Generative Adversarial Networks”（通过协同调制生成对抗网络进行大规模图像填充），能够实现一键修图。

让我们先来看看它的修复“手艺”吧！

下面这两张图片，左图是原图，右图是修复过的图像。与左图相比，右图中的裂缝是不是没有了？

不仅如此，遮挡物也能修复！将左边的原图经过处理后，右图呈现出的景物更加完整。

残缺的图片也可以自动补全啦！原来破败的房子，处理之后，焕然一新。

现在这项研究成果已经可以在线体验啦！点击阅读原文，即可上手尝试。

技术思想：图像生成能力

事实上，图像填充是深度学习领域内的一个热点任务。尽管现有方法对于小规模、稀疏区域的填充可以取得不错的效果，但对于大规模的缺失区域始终无能为力。为解决这一问题，微软亚洲研究院的研究员们提出了协同调制生成式对抗网络，其研究主要思想是：解决大规模图像填充的关键在于需要充分的图像生成能力。

考虑一个极端情况——如果一张图像绝大部分的面积被遮挡，那么这一情况下图像填充的难度就几乎等价于无条件的图像生成。由此可以推断，充足的图像生成能力将能够极大地助力大区域的图像填充。

当前，越来越多基于条件生成对抗网络（conditional GAN）的图像填充方法被提出。因为这一任务极具挑战性，大量研究者都在针对这一具体任务来优化网络结构，如利用中间表征信息（边缘、结构等）来构建多阶段的生成网络。但即便如此，这些方法在面对大规模的缺失区域时仍然无法生成合理的、与已知部分协调的图像内容。而利用图像的生成能力则能够在一定程度上解决这个挑战。

技术核心：协同调制生成对抗网络

目前，以 StyleGAN、BigGAN 为代表的无条件生成对抗网络借助调制（modulation）的方法（如图1 (a）），可以在无条件图像生成任务（如随机生成人脸）中取得非常好的结果。然而，在以图像为条件的生成任务（如图像填充）中，大多数工作仍然无法突破普通图像条件生成器（图1 (b)）带来的瓶颈。即便有些工作尝试利用输入图片进行条件调制（图1 (c)），但这种完全依赖于条件输入、缺乏随机性的生成器结构导致其无法泛化到需要弱条件生成能力的任务上，尤其是大区域的图像填充。

图1：不同生成式网络架构对比——(a) 无条件调制生成器，(b) 普通图像条件生成器，(c) 有条件调制生成器，(d) 协同调制生成器。

因此，微软亚洲研究院的研究员们提出了协同调制生成对抗网络（如图1 (d)），协同地将条件输入与随机潜矢量经过映射网络产生的风格表征对每个卷积层进行调制，从而跨越了条件与无条件图像生成领域之间的鸿沟，轻松实现任意大区域的图像填充（见图2、图3），并能够应用于更一般的图像转换（image-to-image translation）任务中（图4）。

图2：从小规模（左）到大规模（右）的缺失区域，协同调制生成对抗网络始终可以创作出高质量、多样的填充内容。

图3：不同图像填充方法之间的比较。协同调制生成对抗网络的填充结果（右一）显著优于其它经典方法，即使面对大面积且不规则的缺失区域，它的效果依旧出色。

图4：协同调制生成对抗网络应用于图像转换任务。在 Edges2Handbags 数据集上，协同调制生成对抗网络表现出严格优于其它经典方法的图像质量（FID）与图像多样性（LPIPS）之间的权衡曲线。

技术评价：配对/无配对感知器辨别分数

研究员们还注意到图像填充领域内缺乏良好的评价指标。此前的研究多采用像素级相似度指标（如 l_1、l_2、SSIM、PSNR 等）或直接采用图像生成领域内如 FID、KID 等的指标。前者更加青睐模糊的生成图像，而后者则完全忽略了图像的配对关系（原图像—填充后图像）。

因此，研究员们提出了新的配对/无配对感知器辨别分数（P-IDS/U-IDS），通过计算生成图像与真实图像在感知器特征空间中的线性可分程度，反映了生成图像的保真度。实验验证了该指标的鲁棒性、直观性、与合理性：

1）P-IDS/U-IDS 在少量数据的情况下能够快速收敛（如图5）；

2）P-IDS 能够敏锐地捕捉图像的微小差距（如图6）；

3）P-IDS 与人类偏好有着高相关度——FID 与人类偏好的负相关度为0.765，而 P-IDS 的正相关度高达0.870。

图5：相较于 FID，P-IDS/U-IDS 在数据量少的情况下收敛迅速。

图6：P-IDS 能够捕捉图像的细微差距。在 512×512 大小的图像中，一定数量（横轴）的像素被删除并进行了最近邻插值。

协同调制填补了条件与无条件图像生成之间的空缺，可轻松实现任意大区域的图像补全，还可以被拓展至更广泛的图像转换任务。同时，配对/无配对感知器辨别分数（P-IDS/U-IDS）评价指标的诸多良好性能也使其在领域内有着极高的潜力。研究员们希望协同调制生成对抗网络架构能够成为领域内的基准方法，继续推动这一领域的前进。

论文：Large Scale Image Completion via Co-Modulated Generative Adversarial Networks

论文链接：https://arxiv.org/pdf/2103.10428

GitHub：https://github.com/zsyzzsoft/co-mod-gan

Demo：http://comodgan.ml/

本文作者：赵晟宇、崔仁、盛翊伦、董玥、梁霄、张益肇、许燕

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。