AAAI 2022｜AI顶会论文究竟关注什么？（2）

MSRAsia | 2022-02-19 11:53:32 阅读：468

用于在线视频实例分割的混合实例感知的时序融合方法
论文链接：https://arxiv.org/abs/2112.01695
相较于图像分割，有效利用时序一致性是视频分割的核心问题。本文提出了一种基于实例感知的时序融合方法，用于在线视频实例分割（Video instance segmentation）框架。首先，研究员们利用图像分割的一种表示，基于实例的全局编码（instance code）和 CNN 特征图来分别表示实例级和像素级特征。基于这种表示，研究员们引入了一种无需裁剪对齐（ROI align）的时序融合方法来对视频帧之间（Inter-frame）的内容时间一致性进行建模。具体地，研究员们在实例编码中对全局实例信息进行编码，并通过实例编码和 CNN 特征图之间的混合注意力机制建模帧间的上下文融合。利用学习到的混合时间一致性，研究员们能够直接检索和维护跨帧的实例身份，摒除了先前方法中复杂的逐帧实例匹配方案，提高方法效率。如图7所展示的帧间注意力图，对于不同的参考帧，当前帧的关注点在像素级和实例级都在时序上是一致的（不同颜色表示不同实例）。

图7：帧间注意力图可视化

图8描述了该方法的具体框架。研究员们通过引入混合的帧间通讯来强制视频实例分割中的时间一致性，突出显示了两个主要组件，即用于连接当前实例编码和功能的帧内注意力和帧间注意力，以及用于融合相邻帧中的混合（像素级和实例级）时序信息。首先，N 个帧内注意力层被集成到卷积主干中，然后是 M 个注意力层交织帧间和帧内注意力建模。归因于网络结构设计和附加的对比损失函数，最终在不同帧间实例编码顺序能够保持一致（Order consistent）。
图8：框架概述
综合实验表明，该模型在 Youtube-VIS-19/21数据集上，与所有在线视频实例分割方法对比，取得了最佳性能，结果在表4展示。

表4：在 YoutubeVIS-2019的视频实例分割结果

用于视频对象分割的可靠传播-校正调制网络

论文链接：https://arxiv.org/abs/2112.02853
误差传播是视频对象分割（Video object segmentation）中一个普遍但至关重要的问题。如何通过具有高可靠性的校正机制来抑制误差传播，从而提高分割的准确性，也成为研究员们关注的一个重要问题。本文中所提出的方法的核心是把信息流在常规的传播（Propagation）过程和用可靠线索校正（Correction）的过程中解耦。图9概述了该网络框架。微软亚洲研究院的研究员们引入了两种调制器（Modulation）网络，传播和校正调制模块，分别根据局部时间相关性和参考可靠性对目标帧特征逐通道重新校准。具体来说，研究员们使用级联传播校正方案组装调制模块，从而避免了传播模块对校正模块的影响。尽管参考帧提供了可靠的线索，但它可能与目标帧差异较大（如图10，参考帧中的袋鼠在最后一帧消失了，人物外观变化也非常大），具有不完整和不确定的相关性（即被参考的可靠性 Reliability 减弱）。研究员们还通过将可靠的功能补丁补充到维护池（Reliable patch pool），从而为调制网络提供更全面和更具表现力的对象代理表示（Object proxy）。其中可靠性过滤器（Reliability filter）可过滤掉后续帧的不确定补丁。

图9：网路框架概述

图10：该方法的关键是利用可靠线索补全物体对象的表示并抑制误差传播
该模型在当时的 YouTube-VOS18/19 和 DAVIS17-Val/Test 基准测试中达到了最先进的性能，结果在表5展示。图10（a）也展示了该方法随着时间增长准确性下降最少，这归功于模型抑制了误差的传播。

表5：在 Youtube-VOS 2018和2019上的结果

XLM-K：通过多语言知识库提高跨语言预训练模型

论文链接：https://arxiv.org/abs/2109.12573
跨语言预训练的目标是提高模型在语言之间的迁移能力，使模型可以在一种语言上训练，然后在其他语言上直接测试。之前跨语言模型的能力主要来源于单语和双语的普通文本。本文首次提出从多语言的知识库中来学习跨语言能力。多语言知识库中的实体可以同时对应多个语言，提供新的跨语言监督，而且也可以增强模型对于知识的理解。图11为一个多语言知识库的例子。

图11：多语言知识库示例
微软亚洲研究院的研究员们提出了两个新的预训练任务：掩码实体预测（Masked Entity Prediction）和客体推理（Object Entailment）。这两个任务可以帮助模型实现更好的跨语言对齐，以及让模型有更好的记忆知识。掩码实体预测中，在文本输入中有掩码的位置，模型不仅需要预测被去掉的词，还需要预测这个词能够链接到知识库中的哪个实体。例如一段文本中的苹果被去掉后，模型需要判断这个词应该链接到属于水果的苹果还是属于公司的苹果。客体推理任务中，模型的输入是一段描述主体（subject）的文本以及主体和客体（object）的关系，模型需要预测的客体是什么。例如，主体是“苹果“的介绍，关系是“属于子类”，那么客体就是“水果”，因为“苹果属于水果的子类”。两个任务中，输入和输出的问题都可以是不同的语言，因此模型可以获得更好的跨语言性能。

图12：预训练任务介绍
在具体任务上的测试表明了 XLM-K 模型可以显著提高知识相关的任务的性能。可以看到，该模型在阅读理解和命名体识别上有较大的提升，在普通文本任务上效果持平。

表6：跨语言下游任务评测结果
最后，研究员们用知识探针任务来测试 XLM-K 模型对知识的记忆程度。知识探针任务把知识库中的知识转化成带有掩码的句子，例如“爱因斯坦出生在____”。模型需要直接预测”德国“。由结果可见，XLM-K 模型取得了更好的记忆效果。这也表明了研究员们的模型更好地融入了知识库。

表7：知识探针评测结果

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。