逻辑推理新高度：微软AI模型在这张榜单上刷新了人类纪录

MSRAsia | 2021-03-17 22:16:51 阅读：551

编者按：近日，微软亚洲研究院自然语言计算组提出的新方法，刷新了关注美国司法学院入学考试（LSAT）逻辑推理部分的数据集 ReClor 的纪录，并且超过了人类的准确率（注：人类准确率指的是 ReClor 论文中给出的10名大学生的平均得分）。今天让我们来看看研究团队在机器逻辑推理研究中有哪些新的尝试，又有一些怎样的发现与进展。

2020年，人工智能模型 GPT-3 带着一种“暴力美学”横空出世，业界在惊叹其绘画、写作以及玩游戏技能的时候，也着实为它的智商“捏一把汗”。例如，尝试向 GPT-3 询问以下问题：

提问：太阳有几只眼睛？

GPT-3：太阳有一只眼睛。

人类的正确答案：太阳是恒星，它没有眼睛。

出现这类问题的原因是，当 GPT-3 被提问时，它并没有推理出太阳与眼睛之间的关系。如果从技术方面追根溯源，有一个可能的解释是：当前大多数自然语言处理技术使用的是“预训练+微调”的范式，这种范式在需要文本浅层语义匹配和理解的任务上能取得优越的性能，但是预训练的语言模型是否真的具备了推理能力，是否能应对需要复杂推理能力的任务，还是目前研究亟待解决的问题。

为了解决机器的逻辑推理问题，微软亚洲研究院自然语言计算组提出了 LReasoner 系统，通过识别文本中的逻辑符号和表达式，来辅助模型找到问题的答案。

当研究员们把 LReasoner 系统放到面向美国司法学院入学考试（LSAT）逻辑推理部分的数据集 ReClor 中进行测试后，该系统在数据集的官方评测排行榜中取得了目前 SOTA（最前沿水平）的结果，并且大幅超过了 ReClor 论文中汇报的人类准确率（表1）。

ReClor 排行榜官方网页（访问以下链接或点击“阅读原文”查看）：

https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347

表1: 人类与 LReasoner 系统在 ReClor 数据集上的准确率对比

图1：LReasoner 系统在数据集 ReClor 官方排行榜上目前位列第一

真实场景：美国司法学院入学考试

美国司法学院入学考试（LSAT），全称 Law School Admission Test，是1947年由位于美国宾夕法尼亚州牛顿市的法学院招生委员会设立的标准化入学测试。作为美国法学院申请入学的重要参考条件之一，几乎所有的美国法学院都要求申请人参加 LSAT 考试。

LSAT 考试不需要考生具有专业的法律知识，旨在于考察学生在法学院学习中所需要的逻辑分析和推理能力。LSAT 考试的选择题分为三个部分：（1）阅读理解部分（2）逻辑推理部分（3）分析推理部分。其中，阅读理解部分考察的是考生理解介绍新知识的复杂文章的能力。分析推理部分主要考察考生根据给定的规则，理解一组元素之间的关系结构，并对其进行分析的能力。例如，要求考生根据给定的规则对一组元素进行分组或者排序。

而微软亚洲研究院自然语言计算组的研究员们着重关注的是逻辑推理部分。这个部分重在考查考生对于多组逻辑论证的分析、批判性判断以及组合推理的能力。该部分包含了若干以句子形式呈现的逻辑论证组合而来的文章，并对每一篇文章给出一组问题，要求考生选择出正确的选项。可能的问题类型有：要求考生找出错误的论证，对一个论证进行削弱或者加强，找出论证依赖的假设，或者组合多组论证得出新的结论等。

图2：逻辑推理数据样例

图2给出了一个 LSAT 中逻辑推理问题的例子——给定了一篇文章，一个问题和多个候选选项，要求从候选选项中选出最可行的答案（由绿色标记）。从例子中可以看出，为了回答问题，答题者需要从文章中抽取逻辑符号，例如 have keyboarding skill 还有 be able to use a computer。接下来还需要把逻辑符号组合成逻辑表达式，再通过逻辑规则（比如逆反规则，传递规则）对现有的逻辑表达式进行推理，从而拓展得出新的逻辑表达，最后对选项进行判断。由此可以看出，逻辑推理任务非常需要机器可以拥有理解逻辑论述并且进行复杂推断的能力。

研究员们以公开的 ReClor[1] 评测数据集为例开展了逻辑推理问题的研究。ReClor 数据集中的问题来自于美国司法学院入学考试（LSAT）和美国管理学科研究生入学考试（GMAT）中的逻辑推理部分的试题。该数据集包含了6,138个现实场景中的逻辑推理问题，并采用了多项选择题的分类准确率作为评测指标。为了防止数据偏置的问题，ReClor 的测试集根据是否容易单独依靠选项作出判断，而划分成了简单部分（Test-E）和困难(Test-H) 部分。该评测任务在 EvalAI 有一个公开的评测排行榜，测试集的标注信息不对外公开，参评者需要提交各自的预测结果到官方平台才能获得得分。

创新方法：逻辑驱动的LReasoner系统

为了解决逻辑推理问题，微软亚洲研究院的研究员们提出了 LReasoner 系统，通过识别文本中的逻辑符号和表达式，来生成问题的答案。LReasoner 系统具体包括两个部分：逻辑驱动的文本扩充框架（Logic-Driven Context Extension Framework）和逻辑驱动的样本增强算法（Logic-Driven Data Augmentation Algorithm）。其中文本扩充框架根据逻辑等价律来推断隐式存在的逻辑表达式，从而扩充给定的文本；而样本增强算法则通过构造字面上相似但逻辑不同的样本，让模型可以更好地抓取逻辑信息，尤其是逻辑上的否定和条件关系。

图3：逻辑驱动的文本扩充框架图

逻辑驱动的文本扩充框架（如图3所示）可以分成三个步骤：逻辑识别，逻辑扩充，逻辑文本化。（1）首先研究员们制定了一系列规则将文本和选项中的逻辑符号抽取出来，并考虑符号的否定以及符号之间的条件关系，将显式存在的逻辑表达式识别出来，作为之后逻辑推断的基本单元，如图3，根据 Context（上下文）抽取出了(¬α→¬β) 和 (¬β→¬γ)。（2）基于文本中识别出来的逻辑表达式，研究员们根据逻辑等价律做推断，扩充出文本中隐式的逻辑表达式，如图3，在 Logic Extension（逻辑引申）中可以扩充出 (¬α→¬γ) 等逻辑表达式。（3）最后根据模板，将每个选项相关的扩充逻辑表达式转化成扩充文本，再和原始文本一起输入预训练模型，从而利用推导出来的逻辑信息匹配找到答案。

在逻辑驱动的数据增强算法中，研究员们参考了 SimCLR[2] 的思路，通过构造字面上相似但逻辑不同的样本，来训练模型以预测出支持答案的逻辑正确文本，从而让模型可以更好地感知到文本中的逻辑信息，尤其是逻辑否定和逻辑条件关系。研究员们使用了原始文本构成正样本，而负样本则是通过修改文本中抽取出的逻辑表达式，包括删除、条件逆转、否定操作，并将修改后的逻辑表达式转化成文本而构成（具体构造负样本的过程如图4所示）。

图4：构造负样本的过程图

消融实验：LReasoner系统提升逻辑推理能力

为了证明 LReasoner 系统中逻辑驱动的文本扩充框架和逻辑驱动的样本增强算法两个部分的有效性，研究员们采用了 RoBERTa 作为基础模型，并进行了消融实验，结果如表2。可以看出逻辑驱动的文本扩充框架和数据增强算法对于逻辑推理问题的效果都有所提升。

表2：消融实验结果（CE 和 DA 分别指代文本扩充框架和样本增强算法，RoBERTa+CE+DA 就是基于 RoBERTa 的 LReasoner）

LReasoner 系统是研究员们将机器推理应用在真实场景中的首次尝试。未来，微软亚洲研究院自然语言计算组将持续探索机器推理领域的新任务、新方法，推动懂知识、可解释的人工智能的研究。

参考文献：

[1] Weihao Yu*, Zihang Jiang*, Yanfei Dong, and Jiashi Feng, "ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning," Accepted by ICLR, 2020.

[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020. A simple framework for contrastive learning of visual representations.，accepted by ICML2020.

本文作者：钟宛君（中山大学）、王思远（复旦大学）、唐都钰

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。