"); //-->
04
用于在线视频实例分割的混合实例感知的时序融合方法论文链接:https://arxiv.org/abs/2112.01695
相较于图像分割,有效利用时序一致性是视频分割的核心问题。本文提出了一种基于实例感知的时序融合方法,用于在线视频实例分割(Video instance segmentation)框架。首先,研究员们利用图像分割的一种表示,基于实例的全局编码(instance code)和 CNN 特征图来分别表示实例级和像素级特征。基于这种表示,研究员们引入了一种无需裁剪对齐(ROI align)的时序融合方法来对视频帧之间(Inter-frame)的内容时间一致性进行建模。具体地,研究员们在实例编码中对全局实例信息进行编码,并通过实例编码和 CNN 特征图之间的混合注意力机制建模帧间的上下文融合。利用学习到的混合时间一致性,研究员们能够直接检索和维护跨帧的实例身份,摒除了先前方法中复杂的逐帧实例匹配方案,提高方法效率。如图7所展示的帧间注意力图,对于不同的参考帧,当前帧的关注点在像素级和实例级都在时序上是一致的(不同颜色表示不同实例)。
图7:帧间注意力图可视化
图8描述了该方法的具体框架。研究员们通过引入混合的帧间通讯来强制视频实例分割中的时间一致性,突出显示了两个主要组件,即用于连接当前实例编码和功能的帧内注意力和帧间注意力,以及用于融合相邻帧中的混合(像素级和实例级)时序信息。首先,N 个帧内注意力层被集成到卷积主干中,然后是 M 个注意力层交织帧间和帧内注意力建模。归因于网络结构设计和附加的对比损失函数,最终在不同帧间实例编码顺序能够保持一致(Order consistent)。图8:框架概述
综合实验表明,该模型在 Youtube-VIS-19/21数据集上,与所有在线视频实例分割方法对比,取得了最佳性能,结果在表4展示。表4:在 YoutubeVIS-2019的视频实例分割结果
05
用于视频对象分割的可靠传播-校正调制网络06
XLM-K:通过多语言知识库提高跨语言预训练模型*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。