Deep Reinforcement Learning : An Overview(Yuxi Li) 学习笔记

翻译的比较粗糙,仅供参考。

2.2 Deep Learning

深度学习与浅层学习形成对比。对于许多机器学习算法,如线性回归、逻辑回归、支持向量机(SVMs)、决策树和增强等,我们有输入层和输出层,在训练前可以用人工特征工程对输入进行转换。在深度学习中,在输入层和输出层之间有一个或多个隐藏层。在除输入层外的每一层,我们计算每个单元的输入,作为上一层单元的加权和;然后,我们通常使用非线性变换,或激活函数,如逻辑逻辑,tanh,或最近更流行的,整流线性单元(ReLU),来应用于一个单元的输入,以获得来自前一层输入的新表示。我们在层与层之间的单元之间有权重。通过计算从输入到输出,在输出层和每一个隐含层上的正向流,我们可以逆向计算误差导数,并将梯度反向传播到输入层,这样就可以更新权值来优化一些损失函数。

前馈深度神经网络或多层感知器(MLP)是将一组输入值映射成一个数学函数,在每一层由许多更简单的函数组成。卷积神经网络(CNN)是一种前馈深度神经网络,具有卷积层、池化层和全连接层。cnn与多个数组是用来处理数据,例如,色彩形象,语言,音频谱图和视频,受益于这种信号的属性:本地连接,共享权重,池化和多种层次的使用和灵感来自简单细胞和复杂的细胞在视觉神经科学(勒存et al ., 2015)。递归神经网络(RNN)通常用于处理顺序输入,如语音和语言,一个元素一个元素地处理,并使用隐藏单元存储过去元素的历史。RNN是一个多层神经网络,所有层的权值相同,在正向计算时展开。RNN很难长时间存储信息,梯度可能会消失。长期短期记忆网络(LSTM)门控递归单元(GRU)被提出来解决这些问题,通过门控机制通过递归细胞操纵信息。梯度反向传播或其变体可用于上述所有深度神经网络的训练。

Dropout是一种正则化策略,通过从原始网络中随机删除非输出单元来训练一组子网络。批处理归一化对每个训练小批进行归一化,通过减少内部协变量移位来加速训练,即,前一层参数的改变将改变各层的输入分布。

深度神经网络从原始输入中自动学习表示,以恢复许多自然信号中的成分层次结构。例如,在图像中,对象、部分、图案的层次结构和局部边缘的组合。分布式表示是深度学习的核心思想,它意味着许多特征可以表示每个输入,每个特征可以表示许多输入。深度分布式表示的指数优势克服了维数诅咒的指数挑战。端到端培训指的是一个学习的概念模型使用原始输入没有手动功能工程生成输出,例如,AlexNet (Krizhevsky et al ., 2012)与原始像素图像分类、Seq2Seq (Sutskever et al ., 2014)与原始机器翻译句子,和DQN (Mnih et al ., 2015)与原始像素和玩游戏。

2.3 强化学习RL

在本节中,我们简要介绍了强化学习的背景知识。在建立了RL问题之后,我们讨论了值函数、时间差分学习、函数逼近、策略优化、深度RL、RL的用法,并以一个简短的总结结束了这一节。要对深度强化学习有一个很好的理解,首先要对强化学习有一个很好的理解。

2.3.1 PROBLEM SETUP 问题建立

RL代理随时间与环境交互。在每个时间步骤t,代理分别根据奖励函数R(s,a)和状态转移概率P(st+1|st,at)的环境动态或模型,在作为代理的行为即从状态st到动作at的映射的策略π(at|st)之后,接收状态空间S中的状态st,并从动作空间A选择动作at,并转换到下一个状态st+1。在一个偶发的问题中,这个过程会一直持续,直到代理到达一个终端状态,然后重新启动。回报是折现后的累计回报,带有折现因子。代理人的目标是最大化每个州对这种长期回报的期望。该问题建立在离散状态和动作空间中。将它扩展到连续空间并不难。

2.3.2 VALUE FUNCTION 值函数

价值函数是对预期的、累积的、贴现的、未来的回报的预测,衡量每个状态或状态-动作对的好坏。状态值是从状态分解到Bellman方程的后续策略的期望返回值。最优状态值是将状态分解为Bellman方程的任何策略所能达到的最大状态值。动作值是在状态s中选择动作a,然后按照策略分解成Bellman方程的期望回报。最优动作值函数是指任何策略对状态s和动作a所能达到的最大动作值,并将其分解为Bellman方程。我们通过π表示最优政策。

2.3.3 TEMPORAL DIFFERENCE LEARNING 时间差分学习

当一个RL问题满足马尔可夫性时,即,未来只取决于当前状态和行动,而不是在过去,它是制定作为一个马尔可夫决策过程(MDP)定义的5-tuple (S, P, R,γ)。当系统模型可用时,我们使用动态规划方法:策略评估来计算策略的值/动作值函数,值迭代和策略迭代来寻找最优策略。当没有模型时,我们使用RL方法。当模型可用时,RL方法也可以工作。此外,RL环境可以 multi-armed bandit,一个MDP,POMDP,game,等等

时间差异(TD)学习是RL的核心。TD学习通常是指Sutton(1988)提出的价值函数评价的学习方法。SARSA (Sutton and Barto, 2017)和Qlearning (Watkins and Dayan, 1992)也被认为是时间差异学习。

TD learning (Sutton, 1988)直接从TD错误的经验中,通过bootstrapping,以一种无模型的、在线的、完全增量的方式学习价值函数V(s)。TD learning是一个预测问题。他的更新规则是V (s) ← V (s) + α[r + γV (s0)-V (s)], where α is a learning rate, and r+γV (s0) V (s) is called TD error.算法1给出了表元TD学习的伪代码。准确地说,它是表式的TD(0)学习,其中0表示它是基于一步返回的。

Bootstrapping,如TD更新规则,根据后续的评估来估计状态或动作值,在RL中很常见,如TD学习、Q学习和参与者-批评者。Bootstrapping方法通常学习起来更快,并且使在线学习成为可能。Bootstrapping方法不是真正的梯度体面的实例,因为目标依赖于要估计的权值。然后引入半梯度下降的概念(Sutton and Barto, 2017)。

SARSA,代表状态,行动,奖励,状态(下),行动(下),是一个on-policy的方法找到最优政策,更新规则。算法2给出了SARSA的伪代码,精确的SARSA(0)。

Learning是一种寻找最优策略的off-policy方法。Q学习的学习动作值函数,更新规则是,。Q-Learning 贪婪地根据max的动作值改进策略。算法3给出了Q学习的伪代码,精确的表式Q(0)学习。

TD-learning、Q-learning和SARSA在一定条件下收敛。从一个最优的行动价值函数,我们可以推出一个最优的政策。

将上述算法分别称为TD(0)和Q(0),一步返回学习。我们有TD学习和Q学习的变体和具有多步回归的蒙特卡罗方法。资格跟踪从落后的视图提供了一个在线增量实现,导致TD(λ)和Q(λ)算法,在λ[0,1]。TD(1)与蒙特卡罗方法相同。

资格追踪(Eligibility Trace)是一种短期记忆,通常持续在一个事件中,通过影响权重向量来帮助学习过程。权向量是一种长期记忆,持续整个系统的持续时间,决定了估计值。资格追踪有助于解决长期延迟奖励和非马尔科夫任务的问题(Sutton和Barto, 2017)。

TD(λ)结合一步TD预测,TD(0),用蒙特卡罗方法,TD(1),使用合格的痕迹和衰减参数λ,预测算法。De Asis等(2017)统一了多步TD控制算法。

我们将讨论上面的列表情况,其中值函数或策略以列表形式存储。当状态和/或动作空间很大或连续时,函数逼近是一种泛化方法。函数逼近的目的是从函数的例子中归纳出整个函数的近似值;它通常是监督学习中的一个概念,在机器学习、模式识别和统计曲线拟合等领域都有研究;在强化学习中,函数逼近通常将每个备份作为训练实例,并遇到新的问题,如非平稳性、自举、延迟目标(Sutton and Barto, 2017)。线性函数近似是一种流行的选择,部分原因是其理想的理论性质,特别是在Deep Q-Network的工作之前(Mnih et al., 2015)。然而,强化学习与神经网络的融合由来已久(Sutton和Barto, 2017;Bertsekas和Tsitsiklis, 1996年;Schmidhuber, 2015)。

算法4给出了带函数逼近的TD(0)的伪代码。v (s, w)是近似值函数,w值函数权向量,v (s, w)的梯度近似值函数对权向量,和更新后的权向量更新规则,

 

当将off-policy、function和bootstrapping相结合时,可能会出现不稳定性和发散(Tsitsiklis and Van Roy, 1997),这被称为致命的三元问题(Sutton and Barto, 2017)。所有这三个元素都是必需的:用于可伸缩性和泛化的函数近似、用于计算和数据效率的引导、用于从目标策略中释放行为策略的策略外学习。不稳定的根本原因是什么?学习或采样则不然,因为动态规划与函数逼近有分歧;探索、象化或控制则不然,因为预测本身就有分歧;局部极小值或复杂的非线性函数逼近是不稳定的,因为线性函数逼近会产生不稳定性(Sutton, 2016)。不稳定的根本原因是什么还不清楚——上面提到的每一个因素都不是——在政策外学习中仍然有许多开放的问题(Sutton和Barto, 2017)。

表1给出了处理各种问题的各种算法(Sutton, 2016)。深度RL算法,如Deep Q-Network (Mnih et al., 2015)和A3C (Mnih et al., 2016)在这里没有提出,因为它们没有理论保证,虽然它们在经验上取得了惊人的性能。

在解释表一之前,我们先介绍一些背景定义。回顾一下值函数的贝尔方程是...。贝尔算子被定义为...。(本段省略)

ADP算法是指带有函数逼近的动态规划算法,如策略评估、策略迭代和值迭代。最小二乘时间差(LSTD) (Bradtke and Barto, 1996)以批处理方式直接计算TD不动点。LSTD是一种高效的数据处理方法,但是具有平方时间复杂度。LSPE (Nedic和Bertsekas, 2003)扩展了LSTD。拟合- q算法(Ernst et al., 2005;在批处理模式中学习动作值。残差梯度算法(Baird, 1995)最小化Bellman误差。Gradient-TD (Sutton et al., 2009a;b;(Mahmood et al., 2014)方法是真正的梯度算法,在预测Bellman误差(PBE)中执行SGD,在非策略训练和非线性函数近似下进行鲁棒收敛。- td (Sutton et al., 2016)强调一些更新,通过重新加权去强调另一些,提高计算效率,但仍是一种半梯度方法。更多细节见Sutton和Barto(2017)。Du等(2017)提出了用于政策评估的方差减少技术,以实现快速收敛。White和White(2016)对线性TD方法进行了实证比较,并对其实际应用提出了建议。

2.3.6 policy optimization

相比之下TD学习和q学习的价值取向的方法,基于策略的方法直接优化政策π(带有函数逼近),并通过梯度上升来更新参数θ。加强(威廉姆斯,1992)是一个策略梯度方法,向着...方向更新θ。通常从回归中减去基线以减少梯度估计的方差,同时保持其无偏性,从而得到梯度方向。使用V (st)作为基线bt(st),我们有优势函数A(at, st) = Q(at, st) V (st),因为Rt是Q(at, st)的估计值。算法5给出了情景情况下增强算法的伪代码。

在actor-批评家算法中,批评家按照批评家建议的方向更新动作值函数参数,而actor按照批评家建议的方向更新策略参数。算法6给出了情节式单步演员-批评家算法的伪代码。

2.3.7 Deep RL

当我们使用深度神经网络来近似强化学习的任意一个组成部分(value function,policy,model(状态转变函数,奖励函数))时,我们得到了深度强化学习(deep RL)方法。这里的参数θ深层神经网络的权重。当我们使用“浅”模型,如线性函数、决策树,瓦片编码函数近似者等等,我们获得“浅”RL,这些模型参数θ重量参数。注意,一个浅层模型,例如决策树,可能是非线性的。深度RL和“浅层”RL的明显区别是使用什么函数逼近器。这与深度学习和“浅层”学习的区别类似。在深RL中,通常采用随机梯度下降法来更新权值参数。当偏离政策、函数近似,特别是非线性函数近似和自举结合在一起时,可能会出现不稳定性和发散(Tsitsiklis和Van Roy, 1997)。然而,最近的Deep Q-Network (Mnih et al., 2015)和AlphaGo (Silver et al., 2016a)等工作稳定了学习,取得了优异的成绩。

2.3.8 RL parlance

我们用RL术语解释一些术语。预测问题,或策略评估,是计算策略的状态或动作值函数。控制问题是寻找最优策略。规划用模型构造一个价值函数或策略。

政策上的方法评估或改进行为政策,例如,SARSA适合当前政策的行动价值功能,即时,SARSA基于来自相同策略的样本来评估策略,然后根据动作值贪婪地细化策略。在off-policy方法中,agent学习一个最优值函数/策略,可能遵循一个不相关的行为策略,例如Q- learning试图直接找到最优策略的动作值,不一定与生成数据的策略相匹配,即,得到的策略Q-learning通常与生成样本的策略不同。政策上和政策下的概念可以理解为相同的政策和不同的政策。

探索-利用困境是指当政策还不是最优的,或者系统是不稳定的时候,agent需要贪婪地利用当前最优的行为来获取最大的回报,而agent则需要探索环境来寻找更好的行为。

在无模型方法中,agent明确地从经验中进行试错学习;模型(状态转换函数)不是已知的,也不是从经验中学习的。使用模型的RL方法是基于模型的方法。

在在线模式下,对采集到的数据按顺序执行训练算法。在离线模式或批处理模式下,模型在整个数据集上进行训练。

通过引导,状态或动作值的估计值将从后续估计值更新。

2.3.9 brief summary

当环境观测值满足马尔可夫性时,将RL问题表示为MDP。MDP 5-tuple定义的(S, P, R,γ)。RL的一个核心概念是值函数。Bellman方程是开发RL算法的基石。时间差分学习算法是评价和预测价值函数的基础。控制算法寻找最优策略。强化学习算法可以基于价值函数和/或政策,模范自由或基于模型,对政策或off-policy与函数近似与否,与样品备份(TD和蒙特卡罗)或全备份(动态规划和详尽的搜索),和备份的深度,要么一步返回(TD(0)和动态编程)或多步返回(TD(λ)、蒙特卡罗和详尽的搜索)强化学习算法可以基于值函数和/或策略、无模型或基于模型、on-policy或off-policy、带函数近似值或不带函数近似值、带样本备份或完整备份、带深度备份、一步返回或多步返回。。当将非政策、函数近似和自举相结合时,我们面临着不稳定性和分歧(Tsitsiklis和Van Roy, 1997),致命的三元问题(Sutton和Barto, 2017)。建立了线性函数近似的理论保证,如Gradient-TD (Sutton et al., 2009a;b;Mahmood et al., 2014), - td (Sutton et al., 2016)和Du et al.(2017)。deep Q-Network (Mnih et al., 2015)和AlphaGo (Silver et al., 2016a)等算法利用非线性函数逼近,特别是深度学习,稳定了学习,取得了惊人的效果,这是本文的重点。

3 核心要素

RL代理执行一系列动作,并观察状态和奖励,主要组件包括价值函数、策略和模型。RL问题可以表述为预测、控制或规划问题,解决方法可以是无模型的或基于模型的,具有价值函数和/或策略。在RL中,探索-利用是一个基本的权衡。

在本节中,我们将讨论RL的核心要素:价值函数在3.1节,政策在3.2节,奖励在3.3节,模型在3.4节,规划在3.5节,探索在3.6节。

3.1 价值函数

价值函数是强化学习中的一个基本概念,时间差异(TD)学习(Sutton, 1988)及其扩展q -学习(Watkins and Dayan, 1992)分别是学习状态函数和行为价值函数的经典算法。在接下来的文章中,我们将重点介绍Deep Q-Network (Mnih et al., 2015),一个最近的突破,以及它的扩展。

3.1.1 Deep Q-NETWORK(DQN)

Mnih等(2015)引入Deep Q-Network (DQN),点燃了Deep RL领域。我们在算法7中给出了DQN伪代码。在DQN之前,众所周知,当动作值函数近似为神经网络等非线性函数时,RL是不稳定的,甚至是发散的。DQN的主要贡献有:1)利用经验回放(Lin, 1992)和目标网络,利用深度神经网络(CNN)稳定动作值函数逼近的训练;2 )设计一个端到端的RLapproach, 只有像素和游戏分数作为inputs,只需要最少的领域知识 3)用相同的算法、网络架构和超参数训练一个灵活的网络,使其在许多不同的任务中表现良好,例如, 49款Atari游戏(Bellemare et al., 2013),并超越了之前的算法,表现可与人类专业测试人员相媲美。See Chapter 16 Sutton 和 Barto 详细直观的描述Deep QNetwork.参见Deepmind对DQN的描述:https://deepmind.com/research/dqn/。

3.1.2 DOUBLE DQN

van Hasselt等(2016a)提出了双DQN (D-DQN)来解决Q-learning中的高估问题。在标准Q-learning和DQN中,参数更新如下,

 

以便max操作符使用相同的值来选择和评估一个动作。因此,它更有可能选择过高的估计值,并导致过高的估计值。van Hasselt等(2016a)提出根据在线网络来评估贪婪策略,而使用目标网络来估计其价值。这只需对DQN算法稍加修改即可实现,

 

其中θt是参数在线网络和θt-目标网络的参数。作为参考,yQt可以写成

 

DQN在Atari games上发现了比DQN更好的政策。

3.1.3 PRIORITIZED EXPERIENCE REPLAY

在DQN中,不管经验的重要性如何,经验转换都是从回放存储器中均匀采样的。Schaul等人(2016)提出了经验重放的优先级,这样重要的经验转换可以更频繁地重放,从而更有效地学习。经验转换的重要性是通过TD误差来衡量的。作者设计了一个基于TD误差的随机优先排序方法,利用重要性抽样避免了更新分布的偏差。作者在DQN和D-DQN中使用了优先体验回放,并在Atari游戏中提高了他们的表现。

3.1.4 Dueling Architecture

Wangetal.(2016b)提出了对状态值函数V (s)和相关优势函数A(s, A)进行估计的决斗网络结构,并将其结合起来对动作值函数Q(s, A)进行估计,其收敛速度快于Q-learning。在DQN中,CNN层之后是一个全连接(FC)层。在决斗架构中,CNN层之后是两个流的FC层,分别对价值函数和优势函数进行估计;然后将这两个流结合起来估计动作值函数。通常我们用下列方法来组合V (s)和A(s, A)

 

α和β两个FC流层的参数。Wang等人(2016b)为了更好的稳定性,提出将max算子替换为average算子,

 

使用D-DQN实现的决斗架构和优先体验游戏改进了之前的工作,DQN和D-DQN使用优先体验重播在雅达利游戏上。

3.1.5 More DQN Extensions

DQN一直备受关注。我们在这里列出了几个扩展/改进。

Anschel等人(2017)提出通过对之前q值估计值的平均来减少变异性和不稳定性。

He等人(2017a)提出通过优化收紧(一种约束优化方法)来加速DQN,以更快地传播奖励,并提高DQN的精度。

Liang等人(2016)试图理解DQN的成功,并使用浅RL复制结果。

O Donoghue等人(2017)提出了政策梯度和Q-learning (policy gradient and Q-learning, PGQ),见第3.2.3节。

Oh等人(2015)在Atari游戏中提出了基于动作和之前的具有深度神经网络的视频帧的时空视频预测。

Osband等(2016)设计了更好的勘探策略来改善DQN。

3.2 Policy

策略将状态映射到动作,而策略优化就是找到最优的映射。我们讨论了演员-评论家(Mnih等,2016)。然后我们讨论了策略梯度,包括确定性策略梯度(Silveretal.,2014;Lillicrapetal.,2016),信任区域策略优化(Schulmanetal.)。和,基准结果(Duan et al., 2016)。接下来我们讨论政策梯度和非政策RL的结合(O Donoghue et al., 2017;纳克姆等人,2017;顾等,2017)。参见Retrace algorithm(Munosetal.,2016),这是一种安全高效的基于return的off-policy控制算法,以及其actor-批评家扩展,Reactor(Gruslysetal.,2017)。参见分布式近端策略优化(Heess et al., 2017)。

一个actor-批评家算法学习一个策略和一个状态值函数,值函数用于引导,即。,从后续估计中更新状态,以减少方差和加速盈利(SuttonandBarto,2017)。接下来,我们将关注异步优势的参与者-批评者(A3C) (Mnih等,2016)。Mnih等(2016)也讨论了异步一步SARSA、一步Q-learning和n-step Q-learning。在A3C中,并行参与者使用不同的探索策略来稳定训练,这样就不会使用经验回放。与大多数深度学习算法不同,异步方法可以在单个多核CPU上运行。在Atari游戏中,A3C跑得更快,但却比DQN、Gorila (Nair et al., 2015)、D-DQN、Dueling D-DQN以及优先级为D-DQN表现得更好。A3C也成功连续运动控制问题:金属饰环赛车游戏和MujoCo物理操作和运动,和迷宫,在随机3 d迷宫导航任务使用视觉输入,代理人将面临一个新的迷宫在每一个新的一集,所以它需要学习一个总体战略,探索随机迷宫。

在算法8中,我们给出了每个参与者-学习者线程的异步优势参与者-批评家的伪代码。A3C维护一个策略和一个值函数的估计值,在每个tmax操作或达到终端状态(类似于使用minibatch)后,在前向视图中使用n步返回值进行更新。梯度更新可视为

 

Wang等人(2017b)提出了一种基于经验重放、截短重要性抽样、随机决斗网络(Wangetal.,2016b)和信任区域策略优化(Schulmanetal.,2015)的稳定高效的角色-批评家深度RL模型。Babaeizadeh等人(2017)提出了A3C的CPU/GPU混合实现。

3.2.2 Policy Gradient

加强(威廉姆斯,1992;Sutton et al., 2000)是一种流行的政策梯度方法。相对而言,如3.1节所述,Q-learning是样本效率,而policy gradient是稳定的。

Deterministic policy gradient

政策通常是随机的。然而,Silver等(2014)和Lillicrap等(2016)提出了确定性政策梯度(policy gradient, DPG)来有效估计政策梯度。Silver等人(2014)提出了连续动作空间RL问题的确定性策略梯度(policy gradient, DPG)算法。确定性策略梯度是行为价值函数在状态空间上的期望梯度;而在随机情况下,政策梯度集于状态空间和行动空间。因此,与随机政策梯度相比,确定性政策梯度的估计效率更高。摘要为了从探索性行为策略中学习确定性目标策略,并利用确定性策略梯度的相容函数逼近来保证策略梯度的无偏性,提出了一种非策略行为批评算法。实证结果表明,该算法在高维任务方面优于随机政策梯度算法,具体表现在以下几个方面:高维强盗;具有低维动作空间的山地车、摆锤、2D水坑世界标准标杆RL任务;用高维的动作空间控制章鱼的手臂。实验采用块编码法和线性函数逼近法进行。

Lillicrap等人(2016)通过扩展DQN(Mnihetal.,2015)和DPG(Silver等人,2014),提出了一种无模型、深度确定性政策梯度(deep policy gradient, DDPG)算法的连续动作空间。在DPG中使用actor-批评家,DDPG避免了像Q-learning那样在每一步都对动作进行优化,从而得到一个贪婪的策略,这将使其在具有大的、无约束的函数逼近器(如深度神经网络)的复杂动作空间中不可行。学习稳定和健壮,类似于DQN, DDPQ部署经验重放和一个想法类似的目标网络,软目标,,而不是直接复制权重DQN,慢慢更新软目标网络的权值来跟踪学习网络权值θ。作者采用了批量归一化处理的方法,解决了观测中不同分量具有不同物理单元的问题。作为一种off-policy算法,DDPG通过向actor策略添加来自噪声过程的采样噪声,从探索策略的经验中学习actor策略。使用相同的学习算法、网络架构和超参数,在MuJoCo环境中解决了20多个不同难度的模拟物理任务,获得了与完全访问底层物理模型及其衍生物的规划算法具有性能竞争的策略。DDPG解决问题的步骤比DQN少20倍,尽管它仍然需要大量的训练才能找到解决方案,就像大多数无模型的RL方法一样。它是端到端的,以原始像素作为输入。DDPQ paper还包含了演示视频的链接。

Trust Region Policy Optimization

Schulmanetal.(2015)提出了一种迭代过程,通过优化代理目标函数,从理论上对策略进行单调改进。作者提出了一种实用算法,信赖域策略优化(TRPO),通过几个近似,包括引入信赖域约束,定义的KL新政策之间的分歧和旧的政策,这在状态空间的每一点,KL散度是有限的;用平均KL散度约束近似信任域约束;用样本估计代替优化问题中的期望和Q值,有两种变体:在单路径方法中,对单个轨迹进行采样;在vine方法中,构建一个rollout集合,并从rollout集合中的每个状态执行多个操作;并对约束优化问题进行近似求解,更新策略的参数向量。作者还通过分析将政策迭代和政策梯度统一起来,指出政策迭代、政策梯度和自然政策梯度(Kakade, 2002)是TRPO的特例。在实验中,TRPO方法在模拟机器人的游泳、跳跃、行走以及直接从原始图像端到端的玩Atari游戏等任务中表现良好。

Wu等人(2017)提出了可伸缩的、带有kronecker因子的曲率近似的TRPO。

Benchmark Result

Duan等人(2016)提出了连续控制任务的基准,包括经典的任务如车仗、状态和动作空间非常大的任务如3D类人运动和部分观察的任务、层次结构的任务,实现了各种算法,包括批量算法:加强、截断自然政策梯度(TNPG)、回报加权回归(RWR)、相对熵政策搜索(REPS)、信赖域政策优化(TRPO)、交叉熵法(CEM)、协方差矩阵适应演化策略(CMA-ES);在线算法:深度确定性策略梯度(Deep Policy Gradient, DDPG);以及批量算法的重复变量。该开源软件的网址是:https://github.com/rllab/rllab。

Duanetal.(2016)比较了各种算法,发现DDPG、TRPO和Truncated Natural Policy Gradient (TNPG) (Schulman etal., 2015)对深度神经网络策略的训练是有效的,但对于层次任务需要更好的算法。

3.2.3 COMBINING POLICY GRADIENT WITH OFF-POLICY RL

O Donoghue等人(2017)提出将政策梯度与非政策Q-learning (off-policy Q-learning, PGQ)相结合,从经验回放中获益。通常情况下,演员-评论家的方法是有效的。同时证明了动作值拟合技术与角色-批评家方法是等价的,并将正则化策略梯度技术解释为优势函数学习算法。根据经验,作者证明PGQ在Atari游戏中表现优于DQN和A3C。

Nachumetal.(2017)引入了softmax时间一致性的概念,将hardmax Bellman一致性推广为off-policy Q-learning,而将average consistency推广为on-policy SARSA和actor-批评家。建立了软件的一致性、动作值和最优策略之间的对应关系和相容性质,使熵最大化正则化期望折现报酬。作者提出了路径一致性学习方法,试图弥补价值和政策基础之间的差距,即利用开、关策略轨迹的多步一致性。

Gu等(2017)提出Q-Prop来利用政策梯度的稳定性和off-policy RL的样本效率。Schulmanetal.(2017)证明了熵正则化Q-learning与政策梯度的等价性。

3.3 reward

奖励为RL代理做出决策提供评估性反馈。奖励可能是稀疏的,因此学习算法是有挑战性的,例如,在计算机围棋中,奖励出现在游戏结束时。有一些非监督的方法来利用环境信号,见4.2节。奖励函数是奖励的数学公式。奖励形成是在保持最优策略的同时,修改奖励函数以促进学习。奖励函数可能不适用于某些RL问题,这是本节的重点。

在模仿学习中,agent通过专家演示来学习执行任务,专家给出轨迹样本,训练时不需要强化信号,也不需要专家提供额外的数据;模仿学习的两种主要途径是行为克隆和反向强化学习。行为克隆,或学徒制,或从演示中学习,被表述为一个监督学习问题,以将状态-动作对从专家轨迹映射到政策,而不学习奖励函数(Ho et al., 2016;Ho和Ermon, 2016)。逆强化学习(IRL)是在观察到最优行为的情况下确定奖励函数的问题(Ng和Russell, 2000)。Abbeel和Ng(2004)探讨了通过IRL进行学徒学习。

接下来,我们将讨论从演示中学习(Hesteretal.,2017),以及使用生成对抗网络(GANs)的模仿学习(Ho and Ermon, 2016;Stadie等人,2017)。我们将在第4.2.3节中讨论GANs,这是一种最新的无监督学习框架。

Suetal.(2016b)提出与奖励模式共同训练对话政策。Christianoetal.(2017)提出通过比较轨迹段来学习人类偏好的奖赏功能。参见Hadfield-Menell等人(2016);Merel等(2017);Wang et al. (2017);van Seijen等(2017)。

LEARNING FROM DEMONSTRATION

Hester等人(2017)提出了从演示中深度Q-learning (Deep Q-learning from, DQfD),试图通过利用演示数据、使用时间差异(TD)、监督损失和正则化损失的组合来加速学习。在DQfQ中,演示数据没有奖励信号;然而,它在Q-learning中是可用的。监督的大裕度分类损失使得从学习值函数导出的策略能够模仿演示者;TD损失使价值函数根据Bellman方程的有效性得以实现,并进一步应用于RL学习;网络权值和偏差的正则化损失函数防止了对小的演示数据集的过度拟合。在培训前阶段,DQfD仅对演示数据进行培训,以获得对演示的指导和对继续学习的评估功能。然后,DQfD自生成样本,并与演示数据按一定比例混合,得到训练数据。作者表明,在Atari游戏中,DQfD通常具有更好的初始性能、更多的平均奖励以及比DQN更快的学习速度。

在AlphaGo中(Silver et al., 2016a),将在第5.1.1节中讨论,监督学习策略网络从专家动作学习为从演示学习;结果初始化RL策略网络。参见Kim等人(2014);P erez-D Arpino和Shah(2017)。参见Argall等人(2009)关于机器人从演示中学习的调查。

GENERATIVE ADVERSARIAL IMITATION LEARNING

在IRL中,agent首先学习一个奖励函数,然后从中得到一个最优策略。许多IRL算法都具有较高的时间复杂度,在内部循环中存在一个RL问题。

Ho和Ermon(2016)提出了生成式对抗模仿学习算法,绕过中间的IRL步骤,直接从数据中学习策略。生成式对抗训练被用来适应鉴别器、定义专家行为的状态和动作的分布,以及策略生成器。

生成敌对的模仿学习博士发现政策πθ这样一个鉴别器不能区分状态后专家政策πE和模仿者πθ政策后,因此迫使博士0.5在所有情况下,均衡πEπθ没办法区别。这样的游戏被表述为

 

作者代表两个π深层神经网络和D,并发现一个最优的解决方案,反复执行梯度更新。D可以与监督学习与训练数据集形成的痕迹从目前πθ和专家的痕迹。为一个固定的D,寻求一个最优πθ。因此,这是一个以logDR(s)作为奖励的策略优化问题。作者由信赖域策略优化训练πθ(舒尔曼et al ., 2015)。

THIRD PERSON IMITATION LEARNING

Stadie et al.(2017)认为之前的模仿学习著作,如Ho and Ermon(2016)和Finn et al. (2016b),都存在第一人称演示的局限性,并提出向无监督的第三人称演示学习,通过观察他人实现目标来模仿人类学习。

3.4 Model

模型是环境的代理人的表现,包括过渡模型和奖励模型。通常我们假设奖励模式是已知的。我们将在3.3节中讨论如何处理未知的奖励模型。无模型的RL方法处理未知的动力学系统,然而,它们通常需要大量的样本,这对于真实的物理系统可能是昂贵的或禁止的。基于模型的RL方法以数据有效的方式学习价值函数和/或策略,但是,它们可能会遇到模型识别的问题,因此估计的模型可能不准确,其性能受估计模型的限制。

Chebotaretal.(2017)试图结合无模型和基于模型的RL方法的优点。针对时变线性-高斯策略,将基于模型的线性二次调节器(LQR)算法与无模型路径积分策略改进算法相结合。为了推广深度神经网络等任意参数化策略的方法,作者将该方法与指导策略搜索(GPS)相结合(Levine etal.,2016a)。为了避免由于建模错误而导致的退化,所提出的方法并没有生成带有预估模型的样本。

3.5 Planning

规划通常使用模型构造一个值函数或策略,因此规划通常与3.4节中讨论的基于模型的RL方法相关。

Tamar等(2016)引入了价值迭代网络(Value Iteration Networks, VIN),这是一种完全可微CNN规划模块,用来近似价值迭代算法。g, RL的政策。与传统的规划相比,VIN是无模型的,奖励和转移概率是需要学习的神经网络的一部分,因此它避免了系统识别的问题。VIN可以通过反向传播进行端到端的训练。VIN可以在一系列不同的任务中进行概括:简单的网格世界、火星探测器导航、持续控制和维基百科链接导航的WebNav挑战(Nogueira和Cho, 2016)。Value Iteration Network和Dueling Network(Wang et al., 2016b)的一个优点是,它们设计了用于强化学习问题的新型深度神经网络架构。查看关于VIN的博客:https://github.com/karpathy/papernotes/blob/master/vin.md。

Silver等人(2016b)提出了预测器,将学习和规划整合到一个端到端的训练过程中,并在马尔可夫奖励过程中加入原始输入,可以看作是无动作的马尔可夫决策过程。参见经典Dyna-Q (Sutton, 1990)。

3.6 Exploration

一个RL代理通常使用探索来减少它对环境的回报函数和转移概率的不确定性。在表格的情况下,这种不确定性可以被量化为环境参数的置信区间或后验,它们与状态-动作访问计数相关。在基于计数器的探索中,RL代理使用访问计数来指导其行为以减少不确定性。然而,基于计数的方法在大的领域中并不是直接有用的。内在动机建议去探索什么是令人惊讶的,特别是在基于预测误差变化的学习过程中。内在动机方法不需要马尔科夫性,而表格表示是基于计数的方法所要求的。Bellemareetal.(2016)提出了伪计数,一种状态空间上的密度模型,通过引入信息增益,将基于计数的探索与内在动机统一起来,将基于计数的探索与置信区间联系起来,将内在动机与学习进展联系起来。建立了伪数相对于以往内在激励方法的理论优势,并通过雅达利博弈对其进行了验证。

纳奇et al .(2017)提出了一个评估奖励避免前面的勘探技术无效,无向探索策略的奖励,在贪婪和熵正则化,并促进定向探索该地区,一个动作序列的对数概率在当前政策ece15得到的奖励。低估回报的探索策略是由最优政策的重要性放大而产生的,是一种模式寻求与一种方式寻求相结合的探索与开发的权衡。作者对提出的勘探策略进行了小的修改以增强,并首次用RL方法对几个算法任务进行了验证。

Osband等(2016)提出自举DQN,将深度探索与深度神经网络相结合,实现高效学习。Houthooft等人(2016)提出了连续状态空间和动作空间的变分信息最大化探索。Fortunato等人(2017)提出了噪声网络,通过在深度神经网络的权值中加入参数噪声来进行有效的探索。参见Azar等人(2017);Jiang等(2016);Ostrovski等(2017)。

4 IMPORTANT MECHANISMS

在这一节中,我们讨论了(深度)强化学习发展的重要机制,包括注意力和记忆、非监督学习、转移学习、半监督学习、分层的RL和元学习。我们注意到,我们没有详细讨论一些重要的机制,如Bayesian RL (Ghavamzadeh等,2015),POMDP,如Hausknecht和Stone(2015),以及半监督RL (Audiffren等,2015;Finn等人,2017;朱和戈德堡,2009)。

4.1 ATTENTION AND MEMORY

注意力是一种注重突出部分的机制。内存提供长时间的数据存储,注意力是内存寻址的一种方法。

Graves等(2016)提出了可微神经计算机(DNC),其中神经网络可以读写外部存储器,这样DNC可以解决复杂的结构化问题,而没有读写存储器的神经网络无法解决这些问题。DNC最小化内存分配干扰,支持长期存储。与传统计算机相似,在DNC中,神经网络是控制器,外部存储器是随机存取存储器;DNC用存储器表示和操作复杂的数据结构。与此不同的是,DNC以目标导向的方式从数据中端到端学习这种表示和操作,并使用梯度下降。在监督学习的训练下,DNC可以用自然语言进行推理和推理,解决综合问题的回答;它可以解决交通网络中两站之间的最短路径查找问题和家庭树中的关系推理问题。当使用强化学习进行训练时,DNC可以通过改变符号序列指定的目标来解决移动的块拼图。DNC优于LSTM或DNC的前驱神经图灵机等常规神经网络(Graves等,2014);对于更困难的问题,LSTM可能会失败。虽然这些实验规模相对较小,但我们希望看到DNC的进一步改进和应用。参见Deepmind对DNC的描述:https://deepmind.com/blog/neural-computers/。

Mnihetal.(2014)将注意力放在了图像分类和目标检测上。Xuetal.(2015)综合关注图像字幕。我们在第5.4节简要讨论了注意在计算机视觉中的应用。注意力机制也被运用在NLP中,如Bahdanau等人(2015;和外部记忆,在可微神经计算机(Graves等,2016)。大多数作品遵循一个软注意机制(Bahdanau et al., 2015),一个对所有内存位置的加权寻址方案。努力引起注意力(Gulcehre et al., 2016;梁等,2017a;罗等,2016;Xu et al., 2015;这是传统计算机访问内存的方式。

参见最近关于注意力和/或记忆的研究,如Ba等(2014;2016);Chen等(2016a);Danihelka等(2016);Duan等(2017);Eslami等(2016);Gregor等人(2015);Jaderberg等(2015);凯撒和本吉欧(2016);Kadlec等(2016);罗等(2016);Oh等人(2016);Oquab等人(2015);Vaswani等(2017);Weston等(2015);苏赫巴托尔等人(2015);Yang et al. (2015);Zagoruyko和Komodakis (2017);Zaremba和Sutskever(2015)。见http://distill.pub/2016/augmentedrnns/和http://www.wildml.com/2016/01/attentionand-memory-in-deep-learning-and-nlp/的博客。

4.2 UNSUPERVISED LEARNING

无监督学习是利用海量的数据,和实现一般人工智能的关键机制。无监督学习分为非概率模型,如稀疏编码、自动编码器、k-means等,和概率(生成)模型,其中涉及密度函数,或显式或隐式(Salakhutdinov, 2016)。在具有显式密度函数的概率(生成)模型中,有些具有可处理的模型,如完全可观察的信念网、神经自回归分布估计器、PixelRNN等;有些是不可控制的模型,如Botlzmann机器、变分自动编码器、Helmhotz机器等。对于具有隐式密度函数的概率(生成)模型,我们有生成对抗性网络、矩匹配网络等。

接下来,我们讨论了(Suttonetal.,2011)和非监督辅助学习(Jaderberg等人,2017)两种利用环境中可能的非奖励训练信号的方法。我们还讨论了生成式对抗网络(Goodfellowetal.,2014)。也看到Leetal。(2012), Chen et al. (2016), Liu et al.(2017)。

4.2.1 HORDE

Sutton等人(2011)提出用一般价值函数表示知识,其中策略、终止函数、奖励函数和终端奖励函数是参数。作者提出了从无监督的感觉运动相互作用中学习独立子代理的不平行通用价值函数的计算量,即,非奖励信号和观察。Horde可以学习预测许多传感器的值,并使用通用的值函数来最大化这些传感器的值,并回答具有预测性或面向目标的问题。部落是一个off-policy,它在遵循其他行为策略的同时进行实时学习,并使用基于梯度的时间差异学习方法进行学习,每个时间步长和内存复杂度不变。

4.2.2 UNSUPERVISED AUXILIARY LEARNIN

环境中可能包含丰富的训练信号,这可能有助于加速实现累积奖励最大化的主要目标,例如,像素变化可能意味着重要事件,辅助奖励任务可能有助于实现奖励状态的良好表示。当外部奖励很少被观察到的时候,这可能是有帮助的。

Jaderberget等(2017)提出了无监督强化和辅助学习(UNREAL),通过最大化伪奖励函数来提高学习效率。除了通常的累积奖励,同时分享一个共同的表现。UNREAL由RNN-LSTM基代理、像素控制、奖励预测和价值函数回放组成。基地代理与A3C一起接受政策培训(Mnih等,2016)。观察、奖励和行动的经验被存储在一个应答缓冲区中,供辅助任务使用。辅助策略使用base CNN和LSTM,结合adeconvolutional network,最大限度地改变输入图像不同区域的像素强度。奖励预测模块通过观察后三帧来预测下一帧的短期外部奖励,解决奖励稀疏性问题。价值函数回放进一步训练价值函数。在Atari游戏中,UNREAL提升了A3C s的性能,并在3D Labyrinth游戏中表现良好。UNREAL在信号之间有一个共享的表示,而Horde train则分别使用不同的权值来搜索值函数。参见Deepminds对虚幻的描述:https://deepmind.com/blog/强化-学习-无监督-辅助-任务/。

我们在第5.2节中讨论了使用类似的无监督辅助学习的机器人导航(Mirowski等,2017)。参见Lample和Chaplot(2016)。

4.2.3 GENERATIVE ADVERSARIAL NETWORKS

Goodfellow(2014)提出了生成对抗网(GANS)估计生成模型通过一个敌对的过程,同时培训两个模型,生成模型G捕捉数据分布,一个判别模型D来估计样本来自训练数据而不是生成模型G的概率。

Goodfellow(2014)用多层感知器为G和D建模:G (z:θg)和D (x:θd),其中θg和θd参数,数据点x, z是输入噪声变量。在输入噪声变量pz(z)上定义一个先验。G是一个可微函数,D(x)输出一个标量,表示x来自训练数据的概率,而不是我们要学习的生成分布pg。

D将接受培训,以最大限度地提高从培训数据和G中获得的样本正确分配标签的概率。同时,G将接受培训,以最大限度地降低这种分类精度(log(1 D(G(z)))。因此,D和G构成了二人极大极小对策:

Goodfellow等(2014)研究表明,当G和D具有足够的容量时,生成式对抗网可以恢复数据的生成分布,并提出了一种利用小批量随机梯度下降法反向传播的训练算法。

Ian Goodfellow(2017)总结了他关于GANs的NIPS 2016教程。GANs得到了很多关注,许多作品已经出现在教程之后。

GANs是出了名的难训练。参见Arjovsky等人(2017)将Wasserstein GAN (WGAN)作为一个稳定的GANs模型。Gulrajani等人(2017)提出通过惩罚鉴别器相对于其输入的梯度范数来提高WGAN的稳定性,而不是像Arjovsky等人(2017)那样裁剪权值。Mao等(2016)提出了另一种稳定模型LSGANs (Least Squares GANs)。Berthelotetal.(2017)提出通过均衡强化模型来改善WGAN,为图像生成在视觉质量上树立了新的里程碑。Bellemare等人(2017)提出了Cram er GAN来满足概率发散的三种机器学习性质:和不变性、尺度敏感性和无偏样本梯度。Hu等人(2017)统一了GANs和变分自编码器(VAEs)。

我们在3.3节中与GANs讨论了模仿学习,包括生成性对抗性模仿学习和第三人称模仿学习。Finn等人(2016a)建立了GANs、逆RL和基于能量的模型之间的联系。Pfau和Vinyals(2016)建立了GANs和actor-批评家算法之间的联系。

4.3 TRANSFER LEARNING

转移学习是关于转移从不同领域学习到的知识,可能具有不同的特征空间和/或不同的数据分布(Taylor和Stone, 2009;潘和杨,2010年;Weiss等人,2016)。正如Pan和Yang(2010)所述,转移学习可以是归纳的、传导的或无监督的;归纳迁移学习包括自学学习和多任务学习;转换学习包括领域适应和样本选择偏差/协方差漂移。

Gupta et al。(2017)制定两个代理学习多种技能的复合型问题,定义了用于状态映射和技能执行的公共表示,并设计了两个代理之间的算法,最大限度地传递信息特征空间以传递新技能,与相似性度量损失,autoencoder,强化学习。作者通过两个模拟机器人操作任务验证了他们的方法。

参见Andreas等人(2017)最近在迁移学习方面的工作;董等(2015);Ganin等(2016);凯撒等人(2017a);Kansky等(2017);Long等人(2015;2016);Maurer等人(2016);Mo等(2016);Parisotto等人(2016);Papernot等(2017);P erez-D Arpino和Shah (2017);Rajendran等(2017);Whye Teh等(2017);Yosinski等人(2014)。参见Ruder(2017)对多任务学习的概述。参见NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop。

4.4 MULTI-AGENT REINFORCEMENT LEARNING

多智能体RL (Multi-agent RL, MARL)是多智能体系统(Shoham and Leyton-Brown, 2009)与RL的集成,是博弈论(Leyton-Brown and Shoham, 2008)与RL/AI社区的交集。除了像收敛和维数曲线这样的RL问题外,还有像多重均衡这样的新问题,甚至还有像多智能体学习的问题是什么,收敛到一个均衡是否是一个合适的目标等基本问题。因此,多智能体学习在技术上和概念上都具有挑战性,需要对要解决的问题有清晰的理解、评估的标准和一致的研究议程(Shoham et al., 2007)。

多主体系统有许多应用,例如。正如我们将讨论的,游戏昆虫5.1,机器人在章节5.2,智能电网在章节5.10,智能交通系统在章节5.11,计算系统在章节5.12。

Busoniu等人(2008)调查了多智能体RL的工作。最近有几项工作,关于新的深灰算法(Foerster et al., 2017;Foerster等人,2017;Lowe等人,2017;Omidshafiei 24等,2017),MARL中的新通信机制(Foerster等,2016;(Sukhbaatar et al., 2016)和MARL的后续社会困境(Leibo et al., 2017)

4.5 HIERARCHICAL REINFORCEMENT LEARNING

分级RL是一种学习、规划和表示知识的方法,具有多个层次的时空抽象。分级RL是一种解决稀疏奖励和/或长期视野问题的方法(Sutton et al., 1999;Dietterich, 2000;Barto和Mahadevan, 2003)。

Vezhnevets等人(2016)提出了一种深度递归神经网络体系结构,即strategic writer (STRAW),用于基于环境观察,以端到端的方式学习高级暂时抽象的宏观行为。宏操作是通常发生的操作序列。STRAW建立了一个多步骤的行动计划,根据对奖励的观察定期更新,并通过不重新计划的执行来学习承诺计划的时间。STRAW学习从数据中自动发现宏观操作,这与之前工作中的手工方法不同。Vezhnevets等(2016)在文本、2D迷宫导航和Atari游戏中验证了STRAW对下一个角色的预测。

Kulkarni等人(2016)提出了层次式dqn (h-DQN),将目标驱动的内在激励的深层RL模块组织成层次式,在不同的时间尺度下工作。h-DQN集成了顶层动作值函数和底层动作值函数;前者通过内在的子目标或选项学习政策(Sutton et al., 1999);后者学习一个策略来满足给定的子目标。在一场艰苦的Atari比赛中,蒙特祖玛的复仇,h-DQN优于以往的方法,包括DQN和A3C。

Florensa等人(2017)提出使用带有信息理论正则化器的随机神经网络对大跨度的技能进行预训练,然后在这些技能之上,为下游任务训练高级策略。预培训是基于代理奖励信号的,这是一种内在激励形式,以探索agent自身的能力;其设计要求对下游任务的知识有最低限度的了解。他们的方法将层次方法与内在动机相结合,训练前采用无监督的方式。

Tessler等(2017)提出了一种面向终身学习的层次深RL网络体系结构。可重用的技能,或子目标,被用来将知识转移到新的任务中。作者们在《我的世界》游戏中测试了他们的方法。

参见Bacon等(2017),Kompella等(2017),Machado等(2017),Peng等(2017a), Schaul等(2015),Sharma等(2017),Vezhnevets等(2017),Yao等(2014)。参见关于分级RL的调查(Barto和Mahadevan, 2003)。

4.6 LEARNING TO LEARN

学习就是要学会快速适应新的任务。它涉及到迁移学习、多任务学习、表征学习、元学习和一次/几次/零次学习。这是实现强人工智能的核心要素(Lake et al., 2016)。

Li和Malik(2017)提出将特定的优化算法表示为策略,以收敛率作为奖励,用引导策略搜索实现无约束连续优化算法的自动化(Levine et al., 2016a)。参见Andrychowicz等人(2016)。Duan et al.(2016)和Wang et al.(2016)提出学习一个灵活的RNN模型来处理一系列RL任务,提高样本效率,学习少量样本中的新任务,并受益于先验知识。

Lake等人(2015)提出了一种一次性的概念学习模型,特别是对于手写字符,采用了概率程序归纳。Koch等人(2015)提出了一种用于单镜头图像识别的带度量学习的siamese神经网络。Vinyals等人(2016)设计了一次性分类的匹配网络。Duan等人(2017)提出了机器人注意一次性模仿学习模型。Ravi和Larochelle(2017)提出了一种用于少数镜头学习的元学习模型。Johnson等(2016)提出了谷歌s多语言神经机器翻译系统的零镜头翻译。

Kaiser等人(2017b)设计了一个大型的记忆模块,用于终生一次记忆罕见事件。Kansky等人(2017)提出了基于直觉物理生成因果模型的零炮点转移模式网络。Snell等人(2017)通过学习一个度量空间来计算到每个类的原型表示的距离,提出了用于少/零镜头分类的原型网络。

5 APPLICATIONS

强化学习有着广泛的应用。我们在第5.1节讨论游戏,在第5.2节讨论机器人,这两个经典的RL应用领域。游戏仍然是人工智能的重要测试平台。机器人将在人工智能时代发挥关键作用。接下来,我们将在5.3节中讨论自然语言处理,这是最近RL广泛而深入的应用领域。计算机视觉在5.4节中有关于视觉和语言的整合。章节5.5中的神经结构设计是RL的一个激动人心的新应用。在第5.6节中,我们将讨论业务管理,如广告、推荐、客户管理和营销。我们在第5.7节讨论财务。商业和金融对于RL来说是很自然的问题。我们将在5.8节中讨论医疗保健,这是在深度学习成功之后,最近受到广泛关注的内容。我们在第5.9节中讨论工业4.0。许多国家都计划将人工智能与制造业结合起来。我们将在5.10节讨论智能电网,5.11节讨论智能交通系统,5.12节讨论计算机系统。这些领域存在优化和控制问题,其中许多与网络和图有关。这些应用领域可能相互重叠,例如,机器人可能需要许多甚至所有应用领域的技能。

强化学习广泛应用于运筹学(Powell, 2011),如供应链、库存管理、资源管理等;我们不会把它列为一个应用领域——它是智能交通系统和工业4.0等应用领域的一个潜在组件。智能城市是人工智能的一个重要应用领域,但我们并没有列出它,因为它包含了几个应用领域:医疗、智能交通系统、智能电网等。我们不讨论一些有趣的应用,如音乐生成(Briot等,2017;Jaques et al., 2017),以及retrosynthesis (Segler et al., 2017)。查看以前关于RL应用程序列表的工作:http://bit。ly / 2 pdes1q事务繁多:/ / bit . ly / 2 rjsmaz。我们只能触及一些应用领域的表面。我们希望对下面列出的所有应用程序领域进行更深入的分析,这是我们以后的工作。

5.1 GAMES

游戏为RL/AI算法提供了良好的测试平台。我们将在3.1.1章节中讨论Deep Q-Network (DQN)及其扩展,所有这些内容都曾尝试过Atari游戏。我们在3.2.1节中讨论了Mnih等人(2016),在4.2节中讨论了Jaderberg等人(2017),在5.2节中讨论了Mirowski等人(2017),他们使用Labyrinth作为试验台。参见Yannakakis和Togelius(2017)关于人工智能和游戏的书籍草稿。

西洋双陆棋和电脑围棋是完美的信息棋盘游戏。在第5.1.1节中,我们简要讨论了西洋双陆棋,重点讨论了计算机围棋,特别是AlphaGo。纸牌游戏的变体,包括麻将牌/麻将,是不完全信息的棋盘游戏,我们将在5.1.2节中讨论它,重点是德州扑克em扑克。在电子游戏中,信息可能是完美的,也可能是不完美的,博弈论可能是有效的,也可能是无效的。我们将在5.1.3节中讨论电子游戏。不完全信息游戏和视频游戏及其应用将取得更多成就。

5.1.1 PERFECT INFORMATION BOARD GAMES

棋盘游戏,如西洋双陆棋、围棋、国际象棋、跳棋和奥赛罗,是RL/AI算法的经典测试平台。在这样的游戏中,玩家会透露完美的信息。Tesauro(1994)通过使用神经网络来近似评估功能学习,达到了人类的水平。我们关注计算机围棋,特别是AlphaGo (Silver et al., 2016a),因为它的重要性。

COMPUTER GO

解决计算机围棋的挑战不仅来自于(size250150)巨大的搜索空间,这是一个天文数字,而且也来自于位置评估的困难(M uller, 2002),它成功地用于解决许多其他游戏,如西洋双陆棋和国际象棋。AlphaGo (Silver et al., 2016a)是一个计算机围棋程序,在2015年10月以5比0赢得了人类欧洲围棋冠军,并成为第一个在全尺寸棋盘上赢得人类职业围棋选手的计算机围棋程序。2016年3月,阿尔法围棋以4比1的比分击败了18次世界围棋冠军李世石,成为世界新闻头条。这是人工智能的一个里程碑。2017年5月,AlphaGo以3:0击败柯洁。

ALPHAGO: TRAINING PIPELINE AND MCTS

我们简要讨论了基于Silver等人(2016a)和Sutton和Barto(2017)的AlphaGo是如何工作的。参见Sutton和Barto(2017)对AlphaGo的详细而直观的描述。参见Deepmind对AlphaGo的描述,网址是goo.gl/lZoQ1d。

AlphaGo采用深度CNN、监督学习、强化学习、蒙特卡罗树搜索(Monte Carlo tree search, MCTS)等技术构建(Browne et al., 2012;Gelly和Silver, 2007年;Gelly等,2012)。AlphaGo由两个阶段组成:神经网络训练管道和MCTS。培训管道包括专家移动、快速推出策略、RL策略网络和RL值网络。

SL策略网络有卷积层、ReLU非线性层和表示合法移动的概率分布的输出softmax层。CNN的输入是19×19×48个图像堆栈,其中19是棋盘的尺寸,48是特征的数量。状态动作对从专家动作中采样,以训练具有随机梯度上升的网络,以最大化在给定状态下选择的移动的可能性。快速推出策略使用带有小模式特性的线性softmax。

RL策略网络改进了SL策略网络,采用相同的网络结构,将SL策略网络的权值作为初始权值,采用策略梯度进行训练。奖励函数为赢为+1,输为-1,输为0。在当前的策略网络和之前的策略网络的随机迭代之间进行博弈,以稳定学习并避免过度拟合。权重通过随机梯度上升来更新,以最大化预期结果。

RL值网络仍然具有与SL策略网络相同的网络体系结构,只是输出是预测位置值的单个标量。在蒙特卡罗策略评估方法中学习价值网络。为了解决由于博弈中连续位置的强相关性而导致的过拟合问题,RL策略网络与自身之间的自博弈产生数据,直至博弈终止。通过在状态-结果对上的回归来训练权重,使用随机梯度下降来最小化预测和相应结果之间的均方误差。

在MCTS阶段,AlphaGo通过前向搜索选择步法。它构建一个部分博弈树从当前状态开始,在接下来的阶段:1)选择一个有前途的节点进一步探索,2)扩大一个叶节点在SL政策网络和收集统计数据的指导下,3)评估一个叶节点的RL价值网络和推出政策,4)备份评估值来更新行动。然后选择一个移动。

DISCUSSIONS

Deepmind团队整合了几种现有的技术来设计AlphaGo,并取得了巨大的成果。但是,RL策略网络和RL值网络不够强大/准确,因此,RL值网络与SL策略网络和rollout网络一起帮助MCTS搜索移动。这也许可以解释为什么在与李世石的比赛中输了一场。2017版AlphaGo vs.柯洁使用TPU在单机上工作,我们猜测它通过自玩提高了策略网络和价值网络的准确性,从而减少了MCTS的搜索量。此外,AlphaGo仍然需要用人类知识手动定义功能,所以它还不是一个完整的端到端的解决方案;相比之下,DQN只需要原始像素和分数作为输入。这种改进的空间将激发对更好的计算机围棋程序的智能研究,可能只使用深度RL,而不使用MCTS,如TD-Gammon(SuttonandBarto,2017)。这将基于一个独立的算法,一个独立的神经网络结构和强大的计算能力。需要新的RL算法,可能是为了更好的推理。新深神经网络架构要求,代表复杂场景的复杂性和优雅的学习在一个合理的时间,因此,最优政策和/或一个最优值函数可以直接近似决策没有特定的帮助下选择动作。诚然,这种努力在目前大体上是虚幻的。参见Wang等人(2017)对此方向的努力。

更实际的是,我们期待Silver等人(2016a)在解决需要巨大搜索空间的问题上更多的应用/扩展技术,比如经典的AI问题,如规划、调度、约束满足等。

在AlphaGo于2017年5月击败柯洁之后,安德雷·卡帕西(Andrej Karpathy)发表了一篇题为《AlphaGo的来龙去》(AlphaGo in context)的博客。他将计算机围棋的特性描述为:完全确定性、完全可观察性、离散的动作空间、可访问的完美模拟器、相对较短的章节/游戏、对许多试错都有帮助的清晰快速的评估,以及大量的人类游戏数据集,以说明AlphaGo的局限性。的确,计算机围棋在设置问题和潜在的应用方面有局限性,而且离人工一般智能还很远。然而,我们认为AlphaGo的成功是人工智能的胜利,特别是AlphaGo的基础技术,即从演示中学习(作为监督学习)、深度学习、强化学习和蒙特卡洛树搜索;这些技术出现在人工智能的许多最新成果中。作为一项整体技术,AlphaGo可能会照亮传统的人工智能领域,如规划、调度和约束满足(Silver等,2016a),以及人工智能的新领域,如反合成(Segler等,2017)。据报道,AlphaGo征服泰坦尼克搜索空间的成功启发了量子物理学家解决量子多体问题(Carleo和Troyer, 2017)。

5.1.2 IMPERFECT INFORMATION BOARD GAMES

不完全信息博弈或一般的博弈论有许多应用,如安全和医疗决策支持(Sandholm, 2015)。有趣的是看到更多进展深RL在这种应用程序中,和德州的完整版。

海因里希和银(2016)提出了神经虚构Self-Play (NFSP)结合虚拟selfplay深RL学习近似纳什平衡游戏不完全信息的可伸缩的端到端没有先验领域知识的方法。NFSP在双人零和游戏中进行评估。在Leduc扑克中,NFSP接近于纳什均衡,而常见的RL方法却出现了分歧。在《极限德州扑克》(Limit Texas Hold’em)中,地域世界规模的非完美信息博弈(-information game)中,NFSP的表现类似于最先进的、基于重要领域专长的超人算法。Heads-up Limit Hold em Poker本质上是用反事实遗憾最小化(CFR)解决的(Bowling et al., 2015),反事实遗憾最小化(CFR)是一种迭代方法,用于近似在两个遗憾最小化算法之间具有重复自玩的扩展形式博弈的纳什均衡。

DEEPSTACK

最近,已取得显著进展的玩法:不限注德州扑克单挑他们扑克(Morav cık et al ., 2017), DeepStack计算机程序首次击败职业扑克玩家。深栈使用CFR的递归推理来处理信息不对称,计算关注具体情况出现时自动决策和使用价值的功能训练,有小游戏领域知识或人类专家,没有抽象和离线计算之前完成策略在桑德霍尔姆(2015)。

5.1.3 VIDEO GAMES

电子游戏将是人工智能的伟大试验田。吴,田(2017)部署A3C与CNN训练一个代理在部分可观测的3 d环境中,厄运,从最近的四个原始帧和游戏变量,预测下一步行动和价值函数,以下课程学习(Bengio et al ., 2009)的方法从简单的任务开始,逐步过渡到更难的。直接将A3C应用到这类3D游戏中并不是一件轻松的事情,部分原因是由于奖励的稀缺性和长期性。作者在ViZDoom的Track 1中以较大的优势获得了冠军,并规划了接下来的工作:来自未知环境的地图、本地化、全球行动计划以及推理过程的可视化。

Dosovitskiy和Koltun(2017)用监督学习的方法解决了沉浸式环境下的感觉运动控制问题,并在视觉末日AI竞赛中获得了完整的死亡竞赛赛道。我们在这里列出它,因为它通常是一个RL问题,但它是用监督学习解决的。Lample和Chaplot(2016)也讨论了如何处理Doom。

Pengetal.(2017b)提出了一个多agent actor-批评家框架,利用非定向协调网络,在一个团队中形成多个agent之间的协调,部署动态分组和参数共享的概念,以获得更好的可扩展性。作者使用星际争霸作为测试平台。在没有示范、没有标签、没有数据、没有监督的情况下,该提议提出了与有经验的人类玩家相似的协调策略,比如不撞人、打了就跑、掩护攻击、集中火力而不滥杀。Usunier等(2017);Justesen和Risi(2017)也研究了《星际争霸》。

Ohetal.(2016)和tessleretal .(2017)研究了minecraft,ChenandYi(2017);Firoiuetal.(2017)研究了Super Smash Bros,而Kansky等人(2017)则提出了模式网络并对Atari游戏中的Breakout变量进行了实证研究。

参见Justesen等人(2017)关于将深度(强化)学习应用于视频游戏的调查。参见Ontanon等人(2013)关于《星际争霸》的调查。在https://www.cs.mun.ca/dchurchill /starcraftaicomp/history.shtml查看AIIDE的星际争霸AI竞赛及其历史。参见Lin等人(2017)的《星际争霸》数据集。

5.2 ROBOTICS

机器人技术是强化学习的一个经典领域。参见Koberetal.(2013)关于机器人领域的RL的调查,Deisenroth等人(2013)关于机器人政策搜索的调查,以及Argall等人(2009)关于机器人从演示中学习的调查。参见《科学机器人》杂志。有趣的是,在2016年NIPS邀请的演讲中,波士顿动力机器人没有使用机器学习。

接下来,我们将讨论引导策略搜索(Levine等,2016a)和学习导航(Mirowski等,2017)。参见最近的机器人技术论文,如Chebotar等(2016;2017);Duan等(2017);芬恩和莱文(2016);Gu等(2016a);Lee等人(2017);Levine等(2016b);马勒等人(2017);P erez-D Arpino和Shah (2017);波波夫等(2017);叶海亚等(2016);Zhu等(2017)。

5.2.1 GUIDED POLICY SEARCH

Levineetal.(2016a)提出端到端联合训练感知和控制系统,将原始图像观测直接映射到机器人电机的力矩。将指导策略搜索(guided policy search, GPS)引入到以CNN为代表的策略训练中,将策略搜索转化为监督学习,实现数据效率,训练数据由未知动态下运行的以轨迹为中心的RL方法提供。GPS在以轨迹为中心的RL和监督学习之间进行交替,以获得来自于策略自身状态分布的训练数据,从而解决监督学习通常不能获得良好的、长期的性能的问题。GPS利用预训练来减少经验数据的量来训练视觉运动策略。在一系列需要定位、视觉跟踪和处理复杂接触动力学的实际操作任务中,以及与以前的策略搜索方法的模拟比较中,取得了良好的性能。正如作者所提到的,这是第一个可以训练复杂、高维、直接扭矩控制的深度视觉运动策略的方法。

5.2.2 LEARN TO NAVIGATE

Mirowski等(2017)通过解决一个RL问题,最大化累积奖励,联合考虑un/self-supervised tasks,提高数据效率和任务性能,获得了导航能力。作者解决了稀疏奖励问题,增加了两个辅助任务:1)无监督重建低维深度地图表示学习,以帮助避障和短期轨迹规划;2)局部轨迹内的自监督闭环闭包分类任务。作者合并了一个堆叠的LSTM,在不同的时间尺度上为环境中的动态元素使用内存。被提议的智能体学习在复杂的3D迷宫中从原始的感官输入端到端的导航,并且执行类似于人类水平,即使开始/目标位置频繁变化。

在这种方法中,导航是目标导向的RL优化问题的副产品,这与传统方法(如同步本地化和映射(SLAM))形成了对比,后者将显性定位推理和映射用于导航。这可能会取代通常需要手动处理的热门SLAM。

5.3 NATURAL LANGUAGE PROCESSING

下面我们将讨论自然语言处理(NLP)、5.3.1节中的对话系统、5.3.2节中的机器翻译和5.3.3节中的文本生成。在NLP中有许多有趣的问题,我们在下面列出了一些。

 

深度学习已经渗透到自然语言处理的许多子领域,并取得了显著的进展。以上是部分列表。在深度学习算法与非深度学习算法的比较中,在基于无领域知识(端到端)的方法与语言学知识的比较中,NLP似乎仍然是一个领域,更多的是协同而不是竞争。一些非深度学习算法是有效的,并且表现良好,例如word2vec (Mikolov et al., 2013)和fastText (Joulin et al., 2017),以及许多研究语言语法和语义的著作,最近的一个例子是semantic role labeling (He et al., 2017b)。一些针对NLP问题的深度学习方法包含了显性或隐性的语言学知识,如Socher等(2011;2013);Yogatama等(2017)。参见克里斯托弗·d·曼宁的一篇文章,题为《最后的话:计算语言学和深度学习,看自然语言处理的重要性》,http://mitp.nautil.us/article/170/last- words-computation-linguistics-deep - Learning。有关NLP的论文请参阅ACL、EMNLP和NAACL等会议。

5.3.1 DIALOGUE SYSTEMS

在对话系统、会话代理或聊天机器人中,人类和计算机与自然语言交互。我们有意删除对话系统之前的语音,以适应口语和书面语言用户界面(UI)。Jurafsky和Martin(2017)将对话系统归类为面向任务的对话代理和聊天机器人;前者的目的是进行简短的对话,以帮助完成特定的任务;后者通过扩展对话来模拟人与人之间的互动,有时还带有娱乐价值。在Deng(2017)中,有四类:社交聊天机器人、信息机器人(交互式问题回答)、任务完成机器人(任务导向或目标导向)和个人助理机器人。我们已经看到了第一代的对话系统:基于符号规则/模板的对话系统,以及第一代的对话系统:基于(肤浅的)学习的数据流对话系统。我们现在正经历着第三代:数据驱动与深度学习,而强化学习通常扮演着重要的角色。对话系统通常包括以下模块:(口语)语言理解、对话管理器(对话状态跟踪器和对话策略学习)和自然语言生成(Young et al., 2013)。在面向任务的系统中,通常需要查询知识库。与通常的深度学习方法一样,尝试对系统参数进行端到端的学习。详见《邓》(2017)。参见一篇关于将机器学习应用于语音识别的调查论文(Deng和Li, 2013)。

Li等人(2017b)提出了一种端到端的任务完成神经对话系统,该系统的参数是通过监督学习和强化学习获得的。提出的框架包括一个用户模拟器(Li et al., 2016d)和一个神经对话系统。用户模拟器由用户议程建模和自然语言生成两部分组成。神经对话系统由语言理解和对话管理(对话状态跟踪和策略学习)两部分组成。作者部署RL端对端培训对话管理,将对话策略表示为深度Q-network (Mnih et al., 2015),使用目标网络和定制体验回放的技巧,并使用基于规则的代理通过监督学习来预热系统。源代码可以在http://github.com/MiuLab/TC-Bot上找到。

Dhingra等人(2017)提出了KB-InfoBot,一种面向目标的多回合信息访问对话系统。通过可微操作(包括访问外部知识库)的用户反馈的RL,对KB- infobot进行端到端的培训。在之前的工作中,例如Li等人(2017b)和Wen等人(2017),对话系统从KBby符号、类似sql的操作中获取现实世界的知识,这是不可微的,并且使对话系统从完全端到端的可训练的状态变为无效。KB- infobot通过在KB条目上引入一个软后验分布来表明用户对哪些条目感兴趣,从而实现了这种可区分性。作者设计了一种改进的情景强化算法,以探索和学习选择对话、行动和行动后、行动。作者们运用了从基于规则的信念追踪器和政策中进行模仿学习的方法来为系统热身。

Su等人(2016b)提出了一种在线学习框架,通过高斯过程模型的主动学习,将对话策略与奖励模型联合训练,解决了将明确的用户反馈作为奖励信号不可靠且代价高昂的问题。作者通过实验证明,该框架在对话策略学习中显著减少了人工数据标注,减少了用户的噪声反馈。

Li等人(2016c)提出使用深度RL生成对话,对未来的奖励进行建模,以获得更好的信息性、连贯性和回答的方便性,尝试解决基于Sutskever等人的序列到序列模型中的问题。(2014):短视和不协调,最大限度地产生一个反应的概率给定的前一个对话转弯,和重复的无限循环反应。作者设计了一个奖励函数,以反映上述理想的性质,并部署政策梯度,以优化长期奖励。使用Su等人(2016b)的方法或使用3.3节中讨论的反向RL和模仿学习来研究奖励模型将是有趣的,尽管Su等人(2016b)提到这种方法代价高昂,而且人类可能不会采取最佳行动。

最近的一些论文如下:Asri组织et al。(2016),誉为et al。(2017),陈et al。(2016 b),埃里克和曼宁(2017),Fatemietal。(2016), Kandasamyetal。(2017), Lewisetal。(2017), Lietal。(2016年),李et al。(2017年),李et al。(2017 b),立顿et al。(2016), Mesnil et al。(2015),帽et al。(2016),彭et al . (2017), Saon et al。(2016), Serban et al。(2017),沙et al .(2016),她和茶(2017)、et al。(2016),维斯et al。(2017),et al。(2015),et al。(2017)、威廉姆斯和茨威格(2016),威廉姆斯et al。(2017),Xiong等(2017b)、Xiong等(2017)、Yang等(2016)、Zhang等(2017a)、Zhang等(2017c)、Zhao、Eskenazi等(2016)、Zhou等(2017)。参见Serban等人(2015)对构建对话系统语料库的调查。

参见NIPS 2016年关于语音和音频处理端到端学习的研讨会,以及NIPS 2015年关于口语理解和交互的机器学习研讨会。

5.3.2 MACHINE TRANSLATION

神经机器翻译(Kalchbrenner and Blunsom, 2013;Cho等人,2014;(Sutskever etal., 2014;Bahdanauetal.,2015)利用端到端深度学习进行机器翻译,与传统的统计机器翻译技术相比,成为主流。神经机器翻译方法通常首先对一个变长源句进行编码,然后将其解码为一个变长目标句。Cho等人(2014)和Sutskever等人(2014)使用两个rns将一个句子编码成一个固定长度的向量,然后将这个向量解码成一个目标句子。Bahdanau等人(2015)引入了软注意技术来学习联合对齐和翻译。

他et al。(2016)提出的双重学习机制来解决饥饿问题机器翻译的数据,灵感来自于观察原始之间的信息反馈,翻译从语言到语言B,和双,翻译从B,可以帮助改善两种翻译模式,策略梯度法,使用语言模型可能作为奖励的信号。实验表明,在只有10%双语数据的温暖启动和单语数据的情况下,双元学习法与之前的神经机器翻译法相比,在英法双语任务中表现得更好。这种双重学习机制可以扩展到许多任务,如果任务具有双重形式,例如语音识别和文本到语音、图像说明和图像生成、问题回答和问题生成、搜索和关键字提取等。

参见Wu等(2016);Johnson等(2016)研究了谷歌神经机器翻译系统;Gehringetal.(2017)针对卷积序列到序列学习的快速神经机器翻译;Klein等人(2017)为OpenNMT,一个开源的神经机器翻译系统;Cheng等人(2016)研究了神经机器翻译的半监督学习,Wu等人(2017)研究了对抗性神经机器翻译。Vaswani等人(2017)提出了一种新的翻译方法,用注意力和位置编码取代CNN和RNN。参见Zhang等人(2017b)的神经机器翻译开源工具包。参见Monroe(2017)对翻译的温和介绍。

5.3.3 TEXT GENERATION

文本生成是许多NLP问题的基础,如会话响应生成、机器翻译、抽象摘要等。

文本生成模型通常基于n-gram,前馈神经网络,或递归神经网络,训练预测下一个单词给定的地面真实单词作为输入;然后在测试中,使用训练好的模型逐词生成序列,并将生成的单词作为输入。错误会在途中累积,造成曝光偏差问题。此外,这些模型还训练了词级损失,例如交叉熵,以最大化下一个词的概率;然而,这些模型是根据不同的指标(如BLEU)进行评估的。

Ranzato等(2016)提出了混合增量交叉熵增强(MIXER)用于序列预测,增量学习和损失函数相结合的加强和交叉。混频器是一个序列级的训练算法,调整训练和测试目标,如BLEU,而不是预测下一个单词在以前的工作。

Bahdanau等人(2017)提出了一种用于序列预测的actor-批评家算法,试图进一步改进Ranzato等人(2016)。作者利用一个评论网络来预测一个令牌的价值,即,按照序列预测策略的期望得分,由参与者网络定义,由令牌的预测值训练。采用了一些技术来提高性能:采用SARSA而不是Monter-Carlo法来减少估计值函数的方差;对延迟的参与者进行抽样预测,其权值的更新速度比待训练的参与者慢,以避免在需要根据对方的输出对参与者和批评者进行训练时出现反馈回路;奖励整形以避免训练信号稀疏的问题。

Yu等(2017)提出了SeqGAN,序列生成的具有政策梯度的对抗网,整合了Goodfellow等(2014)的对抗方案。Li等人(2017a)提出考虑未来知识来改进序列生成。

5.4 COMPUTER VISION

计算机视觉是指计算机如何从数字图像或视频中获得理解。Mnih等(2014)提出了递归注意模型(attention model, RAM),用于对图像或视频中选定的区域或位置序列进行图像分类和目标检测。利用RL方法,特别是增强算法,对模型进行训练,克服了模型不可微的问题,并对一个图像分类任务和一个动态视觉控制问题进行了实验。我们将在4.1节中讨论注意事项。

有些是将计算机视觉与自然语言处理相结合。Xu等人(2015)将注意力整合到图像字幕中,对硬版本注意力进行强化训练,并在Flickr8k、Flickr30k和MS COCO数据集上展示了注意力的有效性。图像字幕参见Liuetal.(2016)和Lu etal.(2016)。Strub等人(2017)提出了针对目标驱动和基于视觉的对话系统的深度RL端到端优化,用于猜测什么?游戏。Das etal.(2017)提出学习具有深度RL的协作式视觉对话代理。也看到Kotturetal。(2017)。请参见Pasunuru和Bansal(2017)的视频字幕。

5.5 NEURAL ARCHITECTURE DESIGN

神经网络体系结构设计是一个众所周知的重要工程问题。神经结构搜索提供了一个很有前途的探索途径。

Zoph和勒(2017)提出了神经结构搜索生成神经网络架构与RL RNN训练,特别是加强,从头搜索variablelength建筑空间,最大化的预期精度验证集生成的架构。在RL配方,一个控制器生成hyperparameters序列的令牌,行动从hyperparameters选择空间;对策略参数的每次梯度更新对应训练一个生成的网络收敛;验证集的准确性就是奖励信号。神经结构搜索可以生成具有跳跃连接或分支层的卷积层和循环的细胞结构。作者设计了一种参数服务器方法来加速训练。与现有方法相比,该方法在CIFAR-10数据集的图像分类任务中取得了较好的效果;和更好的结果为语言建模任务与佩恩Treebank。

Zoph等(2017)提出将通过神经结构搜索(Zoph和Le, 2017)在小数据集上学习到的建筑构件转移到大数据集上进行可伸缩的图像识别。Baker 等 人 (2017) 提出元学习方法, 用带有贪婪地探索策略和经验回放的Q-learning,来为给定的学习任务自动生成CNN架构。Zhong等(2017)提出通过构建网络块来减少网络设计的搜索空间,并通过Q-learning进行训练。参见Bello等人(2017)。

最近有一些研究新的神经结构的作品。Kaiser等人(2017a)提出训练单一模型、多模型,该模型由卷积层、注意机制和稀疏门控层组成,从图像分类、图像字幕和机器翻译等多个领域学习多个任务。Vaswani等人(2017)提出了一种新的翻译结构,用注意力和位置编码代替CNN和RNN。Wangetal.(2016b)提出了对状态值函数和关联优势函数进行估计的决斗网络结构,将两者结合起来估计动作值函数,从而更快的收敛。Tamar等人(2016)引入了价值迭代网络(Value Iteration Networks),这是一种完全可微CNN规划模块,用来近似价值迭代算法,学习规划。Silver等人(2016b)提出了预测器,将学习和规划整合到一个端到端的培训过程中,并在Markov奖励过程中进行原始输入。

5.6 BUSINESS MANAGEMENT

强化学习在商业管理中有许多应用,如广告、推荐、客户管理和营销。

李et al。(2010)制定个性化的新闻文章推荐作为上下文土匪问题,学习一种算法,根据用户和文章的上下文信息为用户顺序选择文章,,例如用户的历史活动,描述性信息和内容类别,并采取用户点击反馈,以适应文章选择政策,以最大限度地提高总用户点击量。

Theocharous等人(2015)将个性化的广告推荐系统作为一个RL问题,在理论保证下最大化终身价值(life-time value, LTV)。这与监督学习或上下文强盗式的短视解决方案形成对比,通常使用点击率(CTR)作为性能度量。由于模型很难学习,因此作者部署了一种modelfree方法来计算策略预期回报的下限,以解决off-policy评估问题,即,如何在不部署的情况下评估RL策略。

Li等人(2015)也试图最大化客户的终身价值。Silver等人(2013)提出了客户交互问题的并发强化学习。参见SuttonandBarto(2017)在“个性化web服务”一节中对一些主题进行了详细而直观的描述。

5.7 FINANCE

RL是一些财经问题的自然解决方案(Hull, 2014;比如期权定价(Longstaff和Schwartz, 2001;Tsitsiklis and Van Roy, 2001;Li et al., 2009),和多周期投资组合优化(Brandt et al., 2005;其中使用了基于值函数的RL方法。Moody和Saffell(2001)提出利用政策搜索学习交易;Deng等人(2016)利用深度神经网络对其进行了扩展。深度(强化)学习可以为风险管理中的一些问题提供更好的解决方案(Hull,2014;Yuetal.,2009)。市场效率假说是金融学的基础。然而,在不确定性条件下,人类决策存在着众所周知的行为偏差,尤其是前景理论(Prashanth et al., 2016)。调节是适应性市场假说(Lo,2004),它可以通过强化学习来实现。

对于财经学界来说,接受神经网络等黑箱方法并非易事;Heaton等人(2016)可能被视为一个例外。然而,在AFA 2017年年会上有一个讲座:经济与金融中的机器学习与预测。我们也可能意识到,金融公司可能拥有最先进的研究/应用结果。

金融科技一直备受关注,尤其是在大数据概念出现之后。金融科技使用机器学习技术来处理欺诈检测(Phua et al., 2010)、消费者信贷风险(Khandani et al., 2010)等问题。

5.8 HEALTHCARE

机器学习在医疗保健领域有许多机遇和挑战(Miottoetal.,2017;Saria, 2014)。个性化医疗在医疗保健领域越来越受欢迎。它系统地优化了患者的医疗保健,特别是慢性病和癌症,使用的是患者个人信息,可能来自电子健康/医疗记录(EHR/EMR)。动态治疗方案(DTRs)或适应性治疗策略是连续决策问题。DTRs中的一些问题不在标准RL中。Shortreed等人(2011)解决了缺失数据问题,并设计了方法来量化所学习的最优策略的证据。Goldberg和Kosorok(2012)提出了审查数据(患者可能在试验期间退出)和灵活阶段数的方法。查阅Chakraborty和Murphy(2014)的最新调查,Kosorok和Moodie(2015)的编辑书籍,了解DTRs的最新进展。目前,q -学习是DTRs中的RL方法。看到深RL方法在这一领域的应用是很有趣的。

最近在机器学习和医疗保健交叉领域的一些研讨会是:NIPS 2016健康机器学习研讨会(http://www.nipsml4hc.ws)和NIPS 2015健康机器学习研讨会(https://sites.google.com/site/nipsmlhc15/)。参见ICML 2017年关于医疗保健应用程序的深度学习教程:挑战和解决方案(https://sites.google.com/view/icml2017-deep-health-tutorial/home)。

5.9 INDUSTRY 4.0

工业4.0的时代已经来临,如O Donovan et al. (2015), Preuveneers and Ilie-Zudor(2017)。强化学习,尤其是人工智能,将是工业4.0许多方面的关键技术,如预测维护,实时诊断,以及管理制造活动和过程。机器人将在工业4.0中占上风,我们将在5.2节中讨论机器人。

Surana等人(2016)提出应用引导策略搜索(Levine等人,2016a),如第5.2.1节所述,优化coldspraynozzledynamics的轨迹政策,以处理机器人代理穿过的目标。作者生成了冷喷涂表面模拟剖面来训练模型。

5.10 SMART GRID

智能电网是利用现代信息技术,为发电、输电、配电、消费和控制而建立的智能输电网(Fangetal.,2012)。一个重要的方面是自适应控制(Andersonetal.,2011)。Glavicetal。(2017)回顾了RL在电力系统决策与控制中的应用。这里我们简要讨论一下需求响应(Wen et al., 2015b;Ruelens等人,2016)。

需求响应系统激励用户根据电网信号的变化(如电价、温度、天气等)动态调整电力需求。在合适的电价下,可以重新安排或减少用电高峰负荷,提高用电效率,降低用电成本,降低用电风险。Wen等人(2015b)提出设计一种无模型强化学习的全自动能源管理系统,使其不需要指定一个负效用函数来模拟用户对作业重调度的不满。将RL公式分解到器件上,使计算复杂度随器件数量线性增长,并利用Q-learning进行仿真。Ruelensetal.(2016)解决了批量RL的需求响应问题。Wen等(2015b)以外生价格为状态,Ruelens等(2016)以平均值为特征提取器构建状态。

5.11 INTELLIGENT TRANSPORTATION SYSTEMS

智能交通系统(Bazzan和Kl ugl, 2014)将先进的信息技术应用于解决交通网络中的拥堵、安全、效率等问题,使交通网络、车辆和用户智能化。自适应交通信号控制是智能交通系统中的一个重要问题。El-Tantawy等(2013)提出将自适应交通信号控制问题建模为多参与者随机博弈,并采用多智能体RL方法求解(Shoham等,2007;Busoniu等,2008)。多agent RL将单agent RL与博弈论相结合,面临着稳定性、非平稳性和维数诅咒的挑战。El-Tantawy等人(2013)通过考虑相邻路口的代理来解决协调问题。作者通过模拟和来自多伦多市的真实交通数据验证了他们提出的方法。El-Tantawy等人(2013)没有探讨函数逼近。van der Pol和Oliehoek(2017)的最新研究,Mannion等人(2016)的一项关于将RL应用于自适应交通信号控制的实验综述。

自动驾驶汽车也是智能交通系统的一个课题。参见Bojarski等人(2016)和Bojarski等人(2017)。

参见NIPS 2016智能交通系统机器学习研讨会。《IEEE神经网络与学习系统深度强化学习与自适应动态规划》特刊,暂定出版日期为2017年12月。

5.12 COMPUTER SYSTEMS

计算机系统在我们的日常生活和工作中是必不可少的。比如:移动电话、电脑和云计算。计算机系统中存在大量的控制和优化问题。Mestres etal.(2016)提出了知识定义网络,Gavrilovska等人(2013)综述了认知无线电网络中的学习和推理技术,Haykin(2005)讨论了认知无线电中的问题,如信道状态预测和资源分配。我们还注意到物联网(IoT)(Xuetal.,2014)和无线传感器网络(Alsheikhetal.,2014)在工业4.0(如第5.9节所述)、智能电网(如第5.10节所述)和智能交通系统(如第5.11节所述)中发挥了重要作用。

Mao等(2016)研究了基于深度RL的系统和网络中的资源管理。作者提出了一种基于策略梯度的多资源集群调度的在线动态作业到达方法,优化了平均作业延迟或完成时间等多个目标。作者通过仿真验证了他们提出的方法。

Mirhoseini等(2017)提出利用RL优化张量流计算图的设备放置。作者部署了一个seuqence-to-sequence模型来预测如何在可用设备上的张量流图中放置操作的子集,使用预测放置的执行时间作为增强算法的奖励信号。该方法在incep - v3、递归神经语言模型和神经机器翻译设备上放置了Tensorflow操作,比人工设计的执行时间更短。Vinyals等人(2015)和Bello等人(2016)也讨论了组合优化问题。计算负担是RL方法直接搜索组合问题解空间的一个问题。

Liu等人(2017)提出了一种层次结构框架,利用深度RL解决云计算中的资源分配和功率管理问题。作者将问题分解为虚拟机资源分配的全局层和服务器电源管理的本地层。作者用实际的谷歌簇迹验证了他们提出的方法。这种层次架构/分解的方法是为了减少状态/动作空间,实现电源管理的分布式操作。

谷歌为数据中心电力管理部署了机器学习,减少了40%的能源消耗,https://deepmind.com/blog/deepmind-ai-reduces-googl-data-centre-cooling-bill-40/。优化内存控制在Sutton和Barto(2017)中进行了讨论。

6 MORE TOPICS

我们列出了更多有趣的和/或重要的主题,我们还没有在下面的概述中讨论,希望它将为那些可能有兴趣进一步研究它们的人提供指针。有些主题/论文可能还不包含RL。然而,我们相信这些是有趣的和/或重要的方向RL的意义上的理论或应用。如果我们能完成这些审查,那肯定会更好,但是,我们把它作为以后的工作。

7 RESOURCES

我们列出了一系列深入的RL资源,包括书籍、调查、报告、在线资源、教程、会议、期刊和研讨会、博客、测试平台和开源算法实现。这决不是完全的。在深入理解深度强化学习之前,首先要对强化学习有一个很好的理解。我们建议从Sutton and Barto (Sutton and Barto, 2017)的教材开始,Rich Sutton的RL课程和David Silver的RL课程作为以下课程小节的前两项。在当前的信息/社交媒体时代,我们被信息淹没了。,fromTwitter, arXiv,谷歌+等。有效地选择最佳信息的技能变得至关重要。在人工智能的耳朵里,我们希望看到一个人工智能代理来完成智能搜索和总结相关新闻、博客、研究论文等任务。

8 BRIEF SUMMARY

我们在此概述中列出了一些RL问题和相应的建议方法,以及一些经典著作。未来的工作方向之一是进一步完善这一节,特别是针对应用程序中的问题和解决方案。

9 DISCUSSIONS

对于深RL领域来说,这既是最好的时代,也是最坏的时代,原因是一样的:它发展得如此迅速,如此巨大。我们已经见证了突破性进展,激动人心的新方法和新应用,我们期待着更多更快的变革。在深度和广度上,这篇综述是不完整的。然而,我们试图总结重要的成就和讨论潜在的方向和应用在这个惊人的领域。

在这篇综述中,我们总结了价值功能、政策、奖励、模式、规划和探索六大核心要素;注意与记忆、无监督学习、转移学习、多主体RL、分层RL和学习学习六种重要机制;以及12个应用游戏、机器人、自然语言处理、计算机视觉、神经架构设计、商业管理、金融、医疗、工业4.0、智能电网、智能交通系统和计算机系统。我们还讨论了机器学习、深度学习和强化学习的背景,并列举了一系列RL资源。

我们已经看到了deep RL的突破,包括deep Q-network (Mnih etal., 2015)和AlphaGo(Silveretal.,2016a)。deep Q-network有许多扩展、改进和应用(Mnih等,2015)。

使用深RL小说架构和应用程序被公认在2016年顶级会议最佳论文:决斗网络架构(王et al ., 2016 b)在ICML,口语对话系统(Su et al ., 2016 b) ACL(学生),信息提取(纳史木汗et al ., 2016)在EMNLP,迭代,价值网络(玛et al ., 2016)在nips。Gelly和Silver(2007)是2017年ICML时间测试奖的获得者。2017年,以下论文被评为最佳论文:Kottur et al. (2017) at EMNLP (short)和Bacon et al. (2017) at AAAI (student)。

激动人心的成果比比皆是:可微的神经计算机(坟墓et al ., 2016),异步方法(Mnih et al ., 2016),双重学习机器翻译(他et al ., 2016),政策引导搜索(Levine et al ., 2016),生成敌对的模仿学习(Ho和Ermon, 2016),无人监督的强化和辅助学习(Jaderberg et al ., 2017),和神经结构设计(Zoph和勒,2017),等等。

价值函数是强化学习的核心,例如在深度q网络及其许多扩展中。政策优化方法已经在许多不同的应用中获得了吸引力,例如,机器人技术、神经体系结构设计、语音对话系统、机器翻译、注意力和学习学习,而这个列表是无限的。新的学习机制已经出现,例如,使用转移/非监督/半监督学习来提高学习的质量和速度,更多的新机制将会出现。这就是强化学习的复兴(Krakovsky, 2016)。事实上,强化学习和深度学习甚至在上一个人工智能的冬季也取得了稳步的进展。

关于深度学习的一个流行的批评是,它是一个黑盒,所以不清楚它是如何工作的。这不应该成为不接受深度学习的理由;相反,更好地理解深度学习是如何工作的有助于深度学习和一般的机器学习社区。在这方面以及我们在第6节中列出的关于深度学习的可解释性的著作都有。

必须考虑学习模型的稳定性、收敛性、准确性、数据效率、可伸缩性、速度、简单性、可解释性、健壮性和安全性等问题。调查评论/批评是很重要的,例如,从智能科学,如直觉物理,直觉心理学,因果模型,组成,学习学习,并采取实时行动(湖等人,2016),更强大的人工智能。参见Peter Norvig的观点http://bit.ly/2qpehcd。

2015年5月《自然》杂志和2015年7月《科学》杂志发表了关于机器学习/人工智能的调查论文。科学机器人于2016年推出。《科学》杂志在2017年7月7日有一期关于网络科学家人工智能的特刊。《自然》(Nature)和《科学》(Science)等顶级期刊对人工智能的报道,以及《科学机器人》(Science Robotics)的推出,都说明了人工智能的明显重要性。有趣的是,NIPS 2017大会在开放注册两周后就被抢购一空。

在美国总统执行办公室,我们有必要深入思考政府、学术界和工业在人工智能(如人工智能、自动化和经济)方面的前景;《人工智能与2030年的生活——人工智能百年研究报告》,斯坦福大学2015-2016年度学术研究报告,高盛集团公司《andAI,MachineLearningandDataFuel the Future of Productivity》等。参见最近的人工智能前沿会议,https://www.aifrontiers.com。

深度学习是2013年《麻省理工学院技术评论》十大突破性技术之一。在过去的几年里,我们见证了深度学习在学术界和工业界的迅猛发展。强化学习是2017年《麻省理工学院技术评论》十大突破性技术之一。深度学习已经取得了许多成就,它已经征服了语音识别、计算机视觉和现在的lp,变得更加成熟和被广泛接受,并得到了产品和市场的认可。相比之下,潜在的,有前途的应用,目前为止的产品,可能仍然需要更好的算法,可能仍然需要产品和市场验证。然而,现在可能是培育、教育和引领市场的正确时机。在未来数年及以后,我们会看到深度学习和强化学习都将蓬勃发展。

在这第三次人工智能浪潮中,深度学习将产生更深远的影响,正如我们已经从它的许多成就中看到的那样。强化学习作为一种更为普遍的学习和决策范式,将深刻影响深度学习、机器学习和人工智能的发展。Deepmind在深度强化学习方面开展了领先的研究,最近在加拿大阿尔伯塔省开设了其首个国际人工智能研究办公室,与里奇·萨顿(Rich Sutton)领导的强化学习主要研究中心共同办公。值得一提的是,当Rich Sutton教授2003年开始在阿尔伯塔大学工作时,他将他的实验室命名为RLAI:强化学习和人工智能。

ACKOWLEDGEMENT

我们感谢来自Baochun Bai, Kan Deng, Hai Fang, Hua He, Junling Hu, Ruitong Huang, Aravind Lakshminarayanan, Jinke Li, Lihong Li, Bhairav Mehta, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesv´ari, Arash Tavakoli, Cameron Upright, Yi Wan, Qing Yu, Yaoliang Yu,的评论。参加各种研讨会和网络研讨会,特别是在麻省理工学院举行的“AlphaGo:关键技术和应用”研讨会,以及在阿尔伯塔大学举行的“人工智能:深度强化学习概述”研讨会。任何遗留的问题和错误都是我们自己的。

你可能感兴趣的:(强化学习,Deep,Reinforcement,Learning:An,翻译)