论文笔记

Natural Questions: a Benchmark for Question Answering Research

作者提出了自然问题语料库,一个问题回答数据集。问题由发布给Google搜索引擎的真实匿名汇总查询组成。向注释者显示问题以及来自前5个搜索结果的Wikipedia页面,并注释长答案(通常为段落)和简短答案(一个或多个实体)(如果页面上存在),或者如果没有则标记为null出现长/短答案。公开发行包含307,373个带有单个注释的培训示例; 7,830个示例,带有用于开发数据的五向注释;以及另外的7,842个5注释示例被隔离为测试数据。作者提出了验证数据质量的实验。作者还将在302个示例上描述25向注释的分析,从而深入了解注释任务上的人类可变性。为了评估问答系统,引入了可靠的指标;在这些指标上展示出较高的人类上限;并使用从相关文献中得出的竞争性方法确定基线结果。
作者认为,由于缺乏适当的培训和测试数据,问题解答的进展受到了阻碍。 为了解决这个问题,作者提出了自然问题语料库。 这是第一个将真实用户查询与文档答案的高质量注释配对的大型公共可用数据集。 作者还提出了与NQ一起使用的指标,用于评估问题回答系统的性能。 作者在这些指标上显示了较高的上限,并表明现有方法没有达到此上限。 作者认为,要使他们这样做,就需要NLU取得重大进展。

Learning to Generalize from Sparse and Underspecified Rewards

在本文中,作者考虑了从稀疏和未指定奖励中学习的问题,在这种情况下,代理会收到复杂的输入(例如自然语言指令),并且需要生成复杂的响应(例如动作序列),而仅能获得二进制成功-故障反馈。这样的成功失败奖励通常没有得到充分说明:它们无法区分有目的的成功和偶然的成功。欠指定奖励的泛化取决于获得偶然成功的伪造轨迹的折衷,而从稀疏反馈中学习则需要有效的探索。我们通过使用一种覆盖KL分歧方向的模式来收集一系列成功的轨迹来解决探索问题,然后采用一种寻求KL分歧以训练稳健政策的模式。我们建议使用元奖励学习(MeRL)来构建辅助奖励功能,该功能可以为学习提供更精细的反馈。相对于训练后的策略的验证性能,优化了辅助奖励功能的参数。 MeRL方法优于基于贝叶斯优化的奖励学习的替代方法,并实现了弱监督语义解析方面的最新技术。它将以前在WIKITABLEQUESTIONS和WIKISQL数据集上的工作分别提高了1.2%和2.4%。


设计总览

稀疏和未指定的奖励。 组件作者通过采用涵盖探索策略的模式和元学习辅助终端奖励功能的模式来解决此问题,而无需使用任何专家演示。 在未来的工作中,作者想扩展他们的方法来学习非终端辅助奖励,并用更强大的模型(例如神经网络)代替线性奖励模型。 另一个有趣的方向是通过随机重启,退火等方法改善MeRL中的局部优化行为。

A Comprehensive Exploration on WikiSQL with Table-Aware Word Contextualization

我们介绍了SQLOVA,这是第一个在WikiSQL数据集中实现人类性能的自然语言到SQL(NL2SQL)模型。我们回顾并讨论NL2SQL文献中的各种流行方法,通过有效的表上下文化方法充分利用BERT(Devlin等人,2018),并将它们相结合,相较于之前的技术水平分别达到8.2%和2.5%分别以逻辑形式和执行精度。我们特别注意,带有seq2seq解码器的BERT导致任务性能不佳,这表明使用如此大的预训练模型时进行仔细设计的重要性。我们还提供了有关数据集和模型的全面分析,这对于设计将来的NL2SQL数据集和模型可能会有所帮助。我们特别表明,我们的模型的性能接近WikiSQL的上限,在该数据库中,我们观察到很大一部分评估错误是由于注释错误所致,并且我们的模型在执行精度方面已经超出了人类性能1.3%。
在本文中,我们提出了第一个NL2SQL模型,以在WikiSQL中实现超人的准确性。 我们展示了谨慎的体系结构设计的有效性,该体系结构将NL2SQL中的先前方法与表感知的单词上下文环境与大型预训练语言模型(BERT)结合在一起并将其结合在一起。 我们提出了一个基于BERT的表格识别编码器,并在编码器顶部提出了一个特定于任务的模块,其逻辑形式和执行精度分别比以前的最佳模型高出8.2%和2.5%。 我们希望我们对模型和数据集的详细解释和分析能够对如何有效地进行有关NL2SQL模型和数据集的未来研究提供一个见识。

Memory Augmented Policy Optimization for Program Synthesis and Semantic Parsing

我们提出了内存增强策略优化(MAPO),一种简单而新颖的方法来利用有希望的轨迹的内存缓冲区来减少策略梯度估计的方差。 MAPO适用于具有离散操作的确定性环境,例如结构化预测和组合优化。我们的关键思想是将预期收益目标表达为两个项的加权和:对内存缓冲区内高回报轨迹的期望,以及对缓冲区外轨迹的单独期望。为了基于此思想设计一种有效的算法,我们提出:(1)内存权重裁剪以加速和稳定训练; (2)有系统的探索以发现高回报的轨迹; (3)从内存缓冲区内部和外部进行分布式采样,以加快训练速度。 MAPO提高了样本效率和策略梯度的鲁棒性,尤其是在奖励稀少的任务上。我们从自然语言(语义分析)评估弱监督程序综合的MAPO。在WIKITABLEQUESTIONS基准上,我们将最新技术水平提高了2.6%,准确度达到了46.3%。在WIKISQL基准上,MAPO仅需很少的监督就可以达到74.9%的准确度,在完全监督的情况下要优于多个强基准。


系统总览

我们提出了内存增强策略优化(MAPO),它合并了有希望的轨迹的内存缓冲区,以减少策略梯度的变化。 我们提出了3种技术来实现针对MAPO的高效算法:(1)内存权重裁剪以加速和稳定训练; (2)系统地探索,以有效地发现高回报的轨迹; (3)从内部和外部内存缓冲区进行分布式采样,以扩大训练范围。 通过自然语言/语义解析任务对MAPO进行了真实世界程序综合评估。 在WIKITABLEQUESTIONS上,MAPO是第一种显着优于以前的最新RL方法。 在WIKISQL上,仅接受弱监督训练的MAPO优于经过充分监督训练的几个强基准。

你可能感兴趣的:(论文笔记)