AAAI 2022｜AI顶会论文究竟关注什么？（4）

MSRAsia | 2022-02-19 11:55:17 阅读：419

神经分段常时滞微分方程
论文链接：
https://arxiv.org/abs/2201.00960
连续深度神经网络框架（如神经常微分方程），在时间序列分析、生成模型构建、物理系统建模等领域取得了广泛的应用。但神经微分方程的微分同胚性质导致其不具备万有逼近能力，无法表示一些简单的函数，比如，反射函数f(x)=-x.。为了克服该问题，不少学者提出了相应的连续深度神经网络框架，例如增维神经常微分方程、神经时滞微分方程（neural delay differential equation, NDDEs）等。
本文提出了一类新的具有时滞的连续深度神经网络，称为神经分段常时滞微分方程(neural piecewise-constant delay differential equations, NPCDDEs)。与之前提出的 NDDEs 框架不同, 研究员们将单个时滞转换为分段常时滞(piecewise-constant delay)。
图18：模型框架示意图
经过这样转换后的 NPCDDEs 一方面继承了 NDDEs 中的万有逼近能力的优势，另一方面，NPCDDEs 考虑了多个过去时刻的信息，进一步提高了模型能力。此外，研究员们还考虑了不同时段采用不同参数的 NPCDDE，称之为 unshared NPCDDEs (UNPCDDEs)，正如一般的前馈神经网络（如ResNets层与层之间的参数是不共享的）。并且研究员们还指出 ResNets 和 NODEs 都是 UNPCDDEs 的特殊形式。研究员们在不同数据集，包括1维分段常时滞种群动力学实例和图像数据集（MNIST, CIFAR10和SVHN）上，证明了 NPCDDEs/UNPCDDEs 的性能优于目前具有代表性的连续深度神经网络模型。
图19：不同神经微分方程在1维分段常时滞种群动力学上的性能比较

表11：不同神经微分方程在 CIFAR10, MNIST, SVHN 图像数据集上的性能比较.
所有这些结果表明将动力系统的要素融入到现有的神经网络框架中，有利于连续深度神经网络的发展。

一致性信息瓶颈在域泛化中的应用

论文链接：https://arxiv.org/abs/2106.06333
领域泛化（Domain Generalization）旨在从不同的分布中学习到一个泛化能力更好的模型。一致性风险最小化（IRM）（Arjovsky 2019）是领域泛化方向里比较重要的算法之一，其致力于寻求条件独立于标签的特征分布一致性（invariance of feature-conditioned label distribution）。但是 IRM 也存在着对于伪一致性特征（pseudo-invariant features）的依赖，以及在数据分布存在 geometric-skews 的时候，即数据都存在一部分伪特征可以用于分类且数据量较大时（即P(z_sp * y) > 0.5），模型会偏向建立一个 short-cut classifier 用于分类，而非考虑数据中更广为存在且一致性更强的特征。
微软亚洲研究院的研究员们认为这种问题源自于对特征的过度依赖，从而导致了 pseudo-invariance 和 geometric-skews 的存在。因此，研究员们在本文中提出使用信息瓶颈的方法对特征的维度进行正则化约束，进而提出了一致性信息瓶颈（Invariant Information Bottleneck，IIB），IIB旨在使用含有输入数据信息尽量少，且尽量在不同分布间具有条件一致性的特征用于建立分类模型。研究员们将 IRM 的优化目标写成互信息的形式，结合信息瓶颈的互信息优化目标，从而可以导出 IIB 的互信息优化目标，视作如下：

进一步，研究员们在神经网络框架下，采取变分推断的方式逼近以上的互信息目标。IIB 整体的结构如下：

图20：IIB 整体结构IIB 在公有的 DomainBed 数据集中表现良好，超越已有基线方法0.9%。

表12：IIB 在 DomainBed 数据集的表现
概括地讲，IIB 在 IRM 的基础上加入对特征的信息瓶颈（IB）约束，并且将 IRM 和 IB 的优化目标统一为互信息形式加以变分推断，进行优化。这种较新的优化方式能够在用于检验 pseudo-invariance 和 geometric-skews 的合成数据集中相比于 IRM 有明显的提升，同时也能在 DomainBed 这种大型的真实数据集中取得较好的效果。

使用点反馈与标准离线黑箱算法的在线影响力最大化问题

论文链接：https://arxiv.org/abs/2109.06077
本文研究了在线影响力最大化问题：玩家与未知社交网络进行多轮交互，每轮需要选取种子集合投放信息，然后观察社交网络上信息传播过程的反馈数据，据此学习网络参数并更新选取策略，最终最小化多轮交互的累积悔值，即每轮选取的集合与使得影响力最大化的最优集合的差距之和。
文献中通常研究两种反馈数据类型：点反馈和边反馈。点反馈揭示哪些节点何时被激活，边反馈则额外揭示信息经由哪些边传播。算法设计中通常需要调用离线影响力最大化算法帮助选择每轮的种子集合。标准离线黑箱算法只需优化种子集合本身，文献中存在大量可高效实现的这类算法；而非标准离线黑箱算法需要同时优化种子集合和网络参数，这是难以实现的。
本文针对独立级联（IC）和线性阈值（LT）传播模型，各自设计了一个基于点反馈数据并且使用标准离线黑箱算法的最优悔值在线算法，改进了之前 IC 模型下基于边反馈的算法和LT模型下使用非标准黑箱的算法。本文提出变种极大似然估计方法来处理点反馈数据，通过定义并优化伪似然函数来学习网络参数。本文的分析能够针对每个参数得到一个置信区间，从而使得调用标准离线黑箱算法成为可能。而前人工作在使用点反馈数据时，只能针对参数向量得到一个高维置信域，从而必须调用非标准离线黑箱算法。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。