"); //-->
人工智能走向大一统
The Big Convergence of AI
01
针对强化学习的掩码隐空间重建
论文链接:
https://www.microsoft.com/en-us/research/publication/mask-based-latent-reconstruction-for-reinforcement-learning/
视觉状态表征的质量对基于视觉的强化学习(vision-based reinforcement learning)至关重要。为了学习高效的状态表征,微软亚洲研究院的研究员们创新性地将基于掩码的建模技术(mask-based modeling)应用到强化学习中,以促进其状态表征学习。此前基于掩码的建模技术已经在 CV 和 NLP 领域中大放异彩,而这项工作是将其应用到强化学习领域帮助策略学习的首次探索。
具体地,研究员们提出了一种简单而有效的自监督方法,即基于掩码的隐空间重建 (mask-based latent reconstruction,简称为 MLR)。MLR 通过从具有时空掩码的视觉状态中预测其在隐空间中的完整表征,从而使神经网络在学习状态表征时能够更好地利用上下文信息,编码更多策略学习所需要的语义信息。大量基准实验表明,MLR 显著提高了强化学习算法的样本效率(sample efficiency),在多个连续和离散的强化学习环境中取得了 SOTA 的性能。
图1:基于掩码的隐空间重建(MLR)的框架示意图
02
基于滑动语言模型的句子评分转换器
论文链接:
https://www.microsoft.com/en-us/research/publication/transcormer-transformer-for-sentence-scoring-with-sliding-language-modeling/
句子评分旨在评估一个句子的最大似然估计,被广泛应用于许多自然语言任务的场景中,包括重排序、语言可接受性等。过去用于解决句子评分的工作主要以两种经典语言模型为主:因果语言模型(causal language modeling, CLM)和掩码语言模型(masked language modeling, MLM)。然而,这些工作都存在一定的瓶颈:CLM 虽然只需要计算一次但却只利用了单向信息;MLM 能够利用双向语义,但每次只能预测部分单词而不得不需要多次推理。
因此,微软亚洲研究院的研究员们提出了一种基于滑动语言模型的 Transformer 模型 Transcormer,并在其中设计了一种三流自注意力机制用于维护滑动语言模型。利用这样的设计,Transcormer 可以确保模型能够利用双向信息进行预测的同时,只需一次计算即可得到所有单词的概率。滑动语言模型在计算句子评分时,Transcormer 还可以避免 CLM 只能利用单向信息的缺点以及 MLM 需要多次计算的不足。实验结果表明,Transcormer 在句子评分任务上能够取得比其他方法更好的结果。
图2:Transcormer 结构示意图:左侧为前向流,右侧为后向流,中间为询问流。其中,前向流用于收集前向语义,后向流用于收集后向语义,而询问流用于捕获当前位置在其之前的前向流语义和其之后的后向流语义
03
周边视觉注意力网络
论文链接:
https://www.microsoft.com/en-us/research/publication/peripheral-vision-transformer/
人类拥有周边视觉这种特殊的视觉处理系统。具体来说,我们的整个视野可以根据到凝视中心的距离被划分为多个轮廓区域,而周边视觉使我们能够感知不同区域的各种视觉特征。受该生物学启发,微软亚洲研究院的研究员们开始探索在深度神经网络中模拟周边视觉进行视觉识别的方法。
研究员们所设计的 PerViT 网络,可以将轮廓区域通过位置编码结合到多头自注意力机制中,使网络掌握如何将视野划分为不同轮廓区域的方法,并能够从不同区域中提取相应的特征。研究员们系统地研究了机器感知模型的内部工作原理,发现网络学习感知视觉数据的方式与人类视觉相似。在 ImageNet-1K 上对 PerViT 网络评估的结果显示,PerViT 在不同模型大小上的图像分类性能均优于基线,证明了该方法的有效性。
图3:人类周边视觉(上)与基于注意力的神经网络(下)相结合以进行视觉识别的示意图
04
VRL3:由数据驱动的视觉深度强化学习框架
论文链接:
https://www.microsoft.com/en-us/research/publication/vrl3-a-data-driven-framework-for-visual-deep-reinforcement-learning/
在强化学习,尤其是机器人系统的训练中,新数据样本的采集往往十分昂贵。为了实现经济,高效,服务于大众的泛用性强化学习和机器人技术,研究员们尝试结合利用多种数据来源,大幅提高训练效率。研究员们设计了一个全新的数据驱动的学习框架 VRL3。VRL3 使用了三阶段的训练方式,整合了非强化学习的大规模图像数据集,有限的人类专家示范以及在线强化学习数据,并加以充分利用,其可在基于视觉输入的深度强化学习任务尤其是模拟机器人任务上,以惊人的样本效率进行学习。
相比之前的最先进方法,在极富挑战性的 Adroit 机械手基准测试中最难的任务上,VRL3 可极其显著地将样本效率提高24倍,并以10倍更快计算速度和3倍更少参数需求完成训练。在达到极高性能的同时,VRL3 追求大道至简的设计理念,用简单易懂的设计思路和代码实现。这项研究向实现高效、便携、低成本可广泛服务于大众的强化学习和机器人系统迈出了关键一步。
图4:VRL3 模型设计图
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。