"); //-->
01
基于神经压缩的视频复原02
基于神经辐射流形的三维可控图像生成
论文链接:https://yudeng.github.io/GRAM/
传统的生成对抗网络(GAN)已经具备生成以假乱真二维图像的能力。但它们并不考虑生成图像中物体背后的三维几何性质,因此无法生成物体的多视角图像。近两年,一些能够实现三维视角控制的生成对抗网络逐渐出现。给定一类物体的单视角图像集作为训练数据,这些方法可以利用图像上的对抗学习过程生成物体的多视角图像。实现这一点的关键因素是将物体的三维表达与图像生成过程相结合,其中最先进的方法利用了神经辐射场(NeRF)作为物体表达。
然而,已有的、基于 NeRF 的生成对抗网络的图像生成质量与传统的二维图像生成对抗网络仍有较大的差距。研究员们观察到,造成这一问题的一个重要原因是 NeRF 的体渲染过程与对抗学习过程相结合时内存开销较大,限制了体渲染时每条光线允许的采样点个数。在采样点数量有限时,NeRF 表征不能有效的处理物体的精细几何纹理,且其渲染图像中含有明显的噪声图案,严重影响了对抗学习过程的稳定性。
本文提出了一种新型的神经辐射流形表达来解决 NeRF 与对抗学习结合时的上述问题。神经辐射流形将辐射场的学习与图像渲染时的采样点限制在三维空间中的一簇二维曲面流形上,有助于网络在曲面上学习物体的精细结构,并有效避免了图像渲染时的噪声图案。实验表明,基于神经辐射流形表征,研究员们极大地提高了生成图像的真实感与其视角变化下的三维一致性。
图2:基于神经辐射流形的图像生成过程示意图
03
StyleSwin – 用Transformer搭建适于高质量图像生成的的生成对抗网络 论文链接:https://www.microsoft.com/en-us/research/publication/styleswin-Transformer-based-gan-for-high-resolution-image-generation/
以生成对抗网络为代表的图像生成模型在过去几年间取得了巨****展。其早期的研究主要集中在让对抗训练更加稳定,而近年来生成质量的突破则主要受益于更具表达能力的网络的提出,如引入注意力机制、采用更大的网络以及 Style-based 生成器。
近期,Transformer 获得了极大的关注,并在一系列判别任务中取得巨大成功。受此启发,微软亚洲研究院的研究员们尝试探究 Transformer 的一系列优异特性,尤其是长距离建模能力,是否对生成任务也有帮助。而构建基于 Transformer 的生成器网络,就需要克服在高分辨率图像生成时计算复杂度过高的问题。为此研究员们采用了微软亚洲研究院提出的 Swin Transformer 作为基本模块,以在计算复杂度和模型表达能力间取得良好的平衡。
研究员们还进一步提出了若干改进,使得 Swin Transformer 可以更好的适配图像生成任务。首先,整个生成器采用了 Style-based 结构,并探究若干种适于 Transformer 模块的风格注入机制。其次,研究员们提出用 double attention 来代替 Swin Transformer 中的重叠窗口,使得每一层 Transformer 模块有更大的注意力范围。此外,研究员们指出对于生成模型,有必要同时采用相对位置编码和绝对位置编码。
图3:(左)StyleSwin 网络结构,(右)256x256生成结果稳定超越 StyleGAN
更重要的,研究员们发现局部窗口内计算注意力会有产生类似于 DCT 压缩时的块状瑕疵(blocking artifact),这个问题仅在生成任务中才会被注意到。为此,研究员们提出了基于小波变换的判别器模型在频域空间识别这种块状瑕疵的方法,有效提升了肉眼感知下的生成质量。
本文提出的 StyleSwin 在若干数据集,FFHQ, CelebA-HQ, LSUN church, LSUN car等标准数据集上都取得了有竞争力的生成质量。在256x256分辨率上,StyleSwin 超越了现有所有 GAN 的方法,在1024x1024分辨率上取得和 StyleGAN2 相当的图像质量。本文的意义在于首次验证了 Transformer 模型在高分辨率、高质量图像生成任务中的有效性,对生成网络基础网络的发展做出了新的启发。
04
基于量化去噪扩散模型的图像到文本生成
论文链接:https://arxiv.org/abs/2111.14822
文本到图像的生成是近些年来的一个热点生成问题。之前的相关工作主要分为生成对抗网络和自回归模型两大类。生成对抗网络受限于拟合能力,往往只能拟合单个场景或者类别的图像。自回归模型则将图像生成问题转换成了序列化生成问题,然而,该方法具有单向偏差、误差累积的问题,并且生成图像的速度较慢。本文提出了一种新型生成模型,量化去噪扩散模型(VQ-Diffusion),该方法能很好地解决以上问题。具体来说,该方法首先利用矢量量化变分自编码器(VQVAE)将图像编码成离散编码,再利用条件化的去噪扩散模型(DDPM)拟合隐空间的分布。
与连续空间的量化去噪模型不同,为了拟合离散的数据分布,研究员们利用概率转移矩阵而不是高斯噪声,在去噪扩散模型的加噪步骤中对目标分布加噪。具体来说,本文提出了遮挡与替换的加噪策略,可以成功地避免误差累积的问题。此外,通过利用双向注意力机制进行去噪,该方法避免了单向偏差的问题。本文还提出了给离散扩散模型加上重参数化技巧,从而有效地平衡生成速度和图像质量。量化去噪扩散模型的示意图如图4所示:
图4:VQ-Diffusion 的算法流程图
本文在很多文本到图像生成的数据集上做了实验,包括 CUB-200,Oxford-102,以及 MSCOCO。与自回归模型相比,采用相似参数量时,量化扩散模型能在生成速度快15倍的情况下,获得更好的生成结果。与之前基于生成对抗网络的文本到图像生成的方法相比,该算法则能处理更复杂的场景,极大提升生成图像的质量。此外,该方法还具有普适性,可用于无条件图像生成(如 FFHQ)和条件图像生成(如 ImageNet)。
05
基于多模态迁移学习的手语翻译模型06
重新思考对比学习中的最小充分表示论文链接:https://arxiv.org/abs/2203.07004
作为一种自监督学习方法,对比学习近年来被当作预训练的主要方法广泛应用于视频和图像领域。由于对比学习使用数据的不同“视角”互相监督,学习到的数据表示往往只包含“视角”之间的的共享信息,而排斥它们的非共享信息。换言之,对比学习最终的结果是学习到了不同“视角”之间的最小充分表示。这样就产生了一个疑问——被排斥掉的非共享信息是不是包含对下游任务有贡献的内容?由于“视角”的产生高度依赖增强方法,而下游任务相关的信息在预训练阶段往往是缺失的,所以从直观上看这种可能性的确存在。
通过从信息论方面进行严谨的推理证明和实验验证,微软亚洲研究院的研究员们发现最小充分表示排斥的非共享信息中确实包含下游任务相关的有用信息,从而揭示了对比学习有过拟到“视角”共享信息的风险。这种风险会严重降低预训练模型的通用性和在下游任务上的性能。为此,研究员们认为对比学习应该学习“视角”之间的充分表示而不是最小充分表示,并且提出了一种简单有效而且通用的方法:增加对比学习中“视角”之间的互信息。简单来说,就是在学习“视角”共享信息的同时,也尽可能学习下游任务相关的非共享信息。在此基础上,研究员们提出了两种通用的预训练策略,一种是通过重构输入数据引入更多的原始输入信息达到增加非共享信息的目的;另一种是通过加入正则项计算互信息的下限来直接提高互信。大量的实验结果表明,我们提出的预训练策略在分类,检测和分割等一系列下游任务中都极大地提高了精度。
图6:对比学习中充分表示和最小充分表示的信息分布图
07
SimMIM:一个简单的图像掩码建模框架
论文链接:https://arxiv.org/abs/2111.09886代码地址:https://github.com/microsoft/SimMIM
掩码信号建模(Masked Signal Modeling)是一种通过利用部分可见信息来预测不可见信息的预训练方法。其在自然语言处理(NLP)领域中的应用——掩码语言建模(Masked Language Modeling, MLM)已经成为了 NLP 领域中最具代表性且应用最广泛的预训练方法。
事实上,在计算机视觉领域也出现了一系列使用掩码图像建模(Masked Image Modeling, MIM)来进行视觉模型预训练的尝试,但之前的方法往往需要引入额外的设计。本文中,研究员们提出了一种简单的预训练框架 SimMIM,证明了仅使用简单的随机掩码策略以及单层线性****来恢复原始图像信号就可以实现良好的视觉模型预训练,并学习到高质量的图像表征。
图7:SimMIM 使用简单的随机掩码策略和一个轻量的单层线性****来重构图像的原始信号,并使用简单的 l1 损失函数进行预训练。
SimMIM 可以适配任意的基础网络,包括 ViT,Swin 以及 ConvNets。如图8(左)所示,在使用 ViT-B 时,SimMIM 取得了比其他方法更好的微调性能,同时花费的训练成本更低。
图8:(左)SimMIM 与其他方法在使用 ViT-B 时的性能比较。(右)SimMIM 在使用 Swin 时与有监督预训练(Supervised Pre-training)的比较。
图8(右)则展示了 SimMIM 在使用 Swin 时取得了比有监督预训练(Supervised pre-training)更好的性能,并且模型越大,SimMIM 的优势就越明显,这说明 SimMIM 是一个良好的模型扩展学习器(model scalable learner)。通过使用 SimMIM,具有3B参数量的 Swin-G 可以在 ImageNet-1K 图像分类任务中取得90.2%的 Top-1 Acc。
SimMIM 不仅适用于基于 Transformer 的网络,其对 ConvNets 也同样有效。ResNet-50×4 使用 SimMIM 可以取得81.6%的 Top-1 Acc,高于有监督预训练获得的80.7%的结果。这些实验证明了 SimMIM 的广泛适用性。
08
学习轨迹感知Transformer的视频超分辨率网络 论文链接:https://arxiv.org/abs/2204.04216代码链接:https://github.com/researchmm/TTVSR
视频超分辨率(VSR)旨在从低分辨率(LR)的对应帧中恢复高分辨率(HR)的视频帧。尽管如今视频超分辨率领域已经取得了一定的进展,但是在如何有效利用整个视频的时间信息方面仍然存在着巨大的挑战。现有的方法通常通过对齐和聚合短距离相邻帧(如5或7帧)的信息来生成高分辨率的帧,所以无法获得令人满意的结果。
本文提出了一种新颖的轨迹感知的 Transformer 来执行视频超分任务(TTVSR),该方法通过引入运动轨迹进一步探索了视频中更有效的空间和时间上的信息学习方法。具体来说,TTVSR 将整个视频中的帧作为视觉特征,并将时空中一些连续的视觉特征定义为一些在内容上预先对齐的时空轨迹,对于其中的每个 query,自注意力机制只是沿着预先定义的时空轨迹来执行。为了实现上述轨迹的建模,研究员们提出了巧妙的位置图机制,该机制通过对预先定义的视觉特征的坐标位置图执行运动变换,来达到建模视觉特征轨迹的目的。相比于传统的在整个时空执行自注意力机制的 Transformer 来说,轨迹感知的 Transformer 大大降低了计算成本,并使 Transformer 能够对长距离的视频特征进行建模。
图9:基于轨迹感知的视频超分辨率 Transformer 的网络结构图
同时,本文还进一步提出了一个跨尺度特征标记化模块来克服长距离视频中频繁出现的目标尺度变化问题。通过对四个广泛使用的视频超分辨率基准数据集进行大量的定量和定性评估,实验结果表明本文所提出的轨迹感知的 Transformer 比其他最先进的模型更具有优势。相关的代码和模型已经在 GitHub 开源:https://github.com/researchmm/TTVSR。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。