【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记

High-Dimensional Continuous Control Using Generalized Advantage Estimation

摘要

Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法,因为它们直接优化累积奖励,并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本,以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进(improvement)。本文通过价值函数来解决第一个挑战:在引入一定偏差的代价下,利用了类似TD(λ)的优势函数的指数加权估计器,显著降低了策略梯度估计的方差。本文通过对策略和价值函数都使用 trust region optimization procedure 来解决第二个挑战,其中 the policy and the value function 都由神经网络表示。

本文方法在极具挑战性的 3D locomotion tasks 上产生了强有力的实证结果,用于双足和四足仿真机器人学习奔跑步态,以及训练双足机器人从地面躺姿状态开始自主站立的策略。与以往大量使用手工设计策略表示的研究不同,本文的神经网络策略(neural network policies)直接从原始运动学数据(kinematics)映射到关节扭矩输出(joint torques)。此算法完全 model-free,且针对 3D bipeds 学习任务所需的 amount of simulated experience,仅相当于现实时间的1-2周。

1 引言

强化学习中 typical problem formulation 是最大化策略的期望总奖励。一个主要的困难来源于行动间的长时间延迟及其对奖励的积极或消极影响;这个问题在强化学习文献(Minsky, 1961_AI; Sutton & Barto, 1998_RL)中被称为信用分配问题(credit assignment problem),而在行为文献(Hull, 1943_Principles_Behavior)中被称为远程奖励问题(distal reward problem)。价值函数提供了一个优雅的解决方案来应对信用分配问题——即在延迟奖励到达之前估计某个动作的好坏。强化学习算法以多种不同的方式利用价值函数;本文考虑的算法是优化 parameterized policy 并使用 value functions 来帮助估计如何改进策略。

当使用参数化的stochastic策略时,可以获得期望总returns梯度的unbiased估计(Williams, 1992_Gradient-Following_Algorithms; Sutton et al., 1999_Policy_Gradient; Baxter & Bartlett, 2000_POMDPs);这些有噪梯度估计可用于随机梯度上升算法中。然而,梯度估计的方差会随着时间范围的增加而显著(unfavorably)增大,因为一个动作的效果会与过去和未来动作的效果混淆(confounded)。另一类策略梯度算法称为演员-评论家方法(actor-critic methods),它使用价值函数而非经验回报,从而获得一个方差更低的估计器,但代价是引入了偏差(Konda & Tsitsiklis, 2003_Actor-Critic; Hafner & Riedmiller, 2011_Feedback_Control)。尽管高方差需要更多的样本,但偏差的危害更大——即使有无限数量的样本,偏差也可能导致算法无法收敛,或者收敛到一个甚至不是局部最优的较差解。

本文提出了一类策略梯度估计器,它们在保持可接受程度bias的同时显著降低了variance。

你可能感兴趣的:(笔记)