"); //-->
Transformer“跨界”视频任务
相对于图像的空间信息,视频还增加了时序维度的信息。Transformer 可以很好地在空间-时序维度上进行建模,进而更好地学习图像与特征中的长距离依赖关系,有利于视频相关任务的增强与提高。
视频修复:Transformer 初尝试
视频修复(video inpainting)是一个旨在通过视频中已知内容来推断并填补缺失内容的经典任务。它在老旧视频恢复、去除水印等视频编辑中有着广泛应用。尽管视频修复技术有很大的应用价值,然而在复杂变化的多个视频帧中找到相关信息,并生成在图像空间和时序上看起来和谐、一致的内容,仍然面临着巨大的挑战。
为了解决这样的问题,微软亚洲研究院的研究员们利用并重新设计了Transformer结构,提出了 Spatial-Temporal Transformer Network (STTN)。 相关论文“Learning Joint Spatial-Temporal Transformations for Video Inpainting”发表在了 ECCV 2020。
论文链接:https://arxiv.org/abs/2007.10247
GitHub地址:https://github.com/researchmm/STTN
STTN 模型的输入是带有缺失内容的视频帧以及每一帧的掩码,输出则是对应的修复好的视频帧。如图6所示,STTN 模型的输入是带有缺失内容的视频帧以及每一帧的掩码,输出则是对应的修复好的视频帧。如图6所示,STTN 模型采用了 CNN-Transformer 的混合结构。其中,frame-level encoder 以及 frame-level decoder 采用了 CNN,分别将每个视频帧从像素编码成特征以及将特征解码成视频帧。Transformer 则作为模型的主干,它将输入的视频帧特征切成块,并对块的序列进行建模,再通过多层时空 Transformer 层挖掘输入帧中的已知信息来推断缺失内容。
图6: Spatial-Temporal Transformer Network (STTN) 模型结构示意图
时空 Transformer 层继承了经典 Transformer 层强大的注意力机制,能聚焦于与缺失内容相关的信息上,通过多层的堆叠不断更新优化预测的内容。同时,不同于经典 Transformer 层中每个头部的是模型采用了固定的块大小,STTN 为了捕捉到尽可能多的上下文信息,在不同的头部上采用了不同大小的块切取方式。因此,当缺失区域的特征不够丰富时,基于大的块的注意力机制可以有效利用较多的已知信息;当缺失区域的特征丰富之后,基于小的块的注意力机制有助于模型聚焦更细微的变化。如图7所示,通过可视化 STTN 最后一层 Transformer 的注意力图,可以发现 STTN 为了填补目标帧中狗身上的缺失区域,能够 “精准追踪” 到其他帧里的信息,来修复缺失区域。
图7:Attention map 的可视化(attention 的部分用黄色高亮)。尽管视频里狗由于奔跑,在不同的帧里形态和位置差异较大,但为了填补目标帧(target frame)中狗身上缺失的部分,STTN 可以 “精准追踪” 到相关的帧里这只跑动的狗。
除了 STTN 模型,该论文还提出了用动态和静态两种不同的视频掩码来模拟实际应用。动态掩码指视频每一帧的掩码是连续变化的,用来模拟移除运动物体的应用;而静态掩码不会随着视频变化,用来模拟水印移除。论文通过在 DAVIS 和 Youtube-VOS 数据集上定性和定量的分析,验证了 STTN 在视频修复任务上的优越性。如视频1所示,STTN 能够生成视觉上更真实的修复结果。同时得益于 STTN 强大的并行建模能力,它也加快了运行速度(24.10 fps VS. 3.84 fps)。
视频1:左上为输入的视频,其中黄色表示需要掩盖并重新填补的区域。右下为STTN的结果。
目标跟踪新范式:基于时空 Transformer
视频目标跟踪(Visual Object Tracking)是计算机视觉领域中的一项基础且颇具挑战性的任务。在过去几年中,基于卷积神经网络,目标跟踪迎来了快速的发展。然而卷积神经网络并不擅长建模图像与特征中的长距离依赖关系,同时现有的目标跟踪器或是仅利用了空间信息,亦或是并未考虑到时间与空间之间的联系,造成跟踪器在复杂场景下性能的下降。
如何解决以上问题?微软亚洲研究院的研究员们提出了一种名为 STARK 的基于时空 Transformer 的目标跟踪器新范式,将目标跟踪建模为一种端到端的边界框预测问题,从而彻底摆脱以往跟踪器使用的超参敏感的后处理,该方法在多个短时与长时跟踪数据集上都取得了当前最优的性能。
相关论文“Learning Spatio-Temporal Transformer for Visual Tracking”
链接:https://arxiv.org/abs/2103.17154
GitHub地址:https://github.com/researchmm/stark
STARK 包括 Spatial-Only 和 Spatio-Temporal 两个版本,其中 Spatial-Only 版本仅使用空间信息,Spatio-Temporal 版本则同时利用了时间和空间信息。
Spatial-Only 版本的框架图如图8所示。首先,第一帧的模板和当前帧的搜索区域会一同送入骨干网络提取视觉特征,然后特征图沿空间维度展开并拼接,进而得到一个特征序列。之后,Transformer 编码器会建模序列元素之间的全局关联,并利用学习到的全局信息来强化原始特征,使得新的特征序列对目标具有更强的判别力。受 DETR 的启发,研究员们使用了一个****以及一个目标查询(Target Query)来对编码器的输出进行译码。目标查询与前面提到的编码器输出的特征序列进行交互,从而学习到和目标相关的重要信息。最后,编码器输出的特征序列以及译码器输出的新的目标查询特征再一同送入边界框预测模块,得到最终的边界框坐标。
图8:Spatial-Only 版本的框架图
边界框预测模块的结构如图9所示,首先从编码器的输出序列中取出搜索区域相关的特征,用该特征序列与译码器输出的目标查询特征计算一次注意力机制,强化目标所在区域的特征,削弱非目标区域的特征。然后,经注意力机制强化后的搜索区域特征序列的空间结构被还原,并通过简单的全卷积网络预测目标左上角和右下角一对角点(corners)的热力图,最终的角点坐标则通过计算角点坐标的数学期望得到。不同于之前的Siamese和DCF方法,该框架将目标跟踪建模为一个直接的边界框预测问题,每一帧上都可直接预测一个边界框坐标,无需使用任何超参敏感的后处理。
图9:边界框预测模块的结构
Spatio-Temporal 版本的框架图如图10所示,粉色区域展示了为了利用时序信息而新加入的结构。新框架额外加入了一个 “动态模板” 作为新输入。动态模板是根据中间帧跟踪结果裁剪得到的,并随着跟踪的进行动态更新,为整个框架补充了之前缺少的时序信息。利用第一帧模板、当前帧搜索区域、动态模板同时作为 Transformer 编码器的输入,编码器能够从全局视角提取时空信息,学习到鲁棒的时空联合表示。除动态模板之外,研究员们还引入了由多层感知机实现的更新控制器来更新动态模板,它与边界框预测头并联,以预测当前帧可靠程度的置信度分数。
图10:Spatio-Temporal 版本框架图
STARK 在多个短时跟踪与长时跟踪数据集上都取得了目前最先进的性能,并且运行速度可达 30FPS 到 40FPS。其中,在 LaSOT, GOT-10K, TrackingNet 三个大规模目标跟踪数据集上的结果如下所示。
图11:LaSOT 数据集上的结果比较
表格6:GOT-10K 数据集上的结果比较
表格7:TrackingNet 数据集上的结果比较
上述四个工作将 Transformer 结构成功地应用于图像内容增强和视频内容分析, 充分地展现了 Transformer 的优势和潜力。目前研究员们已经看到,无论是在图像分类、物体检测与分割等基础视觉任务上,还是在 3D 点云分析、图像视频内容生成等新兴课题中,Transformer 都大放异彩。未来,视觉 Transformer 结构的设计和自动化搜索将会是一个非常具有前景的研究课题。相信 Transformer 结构在计算机视觉领域会继续展现其强大的模型潜力。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。