深度强化学习-策略梯度及PPO算法-笔记(四)

策略梯度 及 PPO算法

  • 策略梯度Policy Gradient
    • 基础知识
    • 策略梯度的计算
    • 细节
    • Tips
      • Tip 1 :Add a Baseline
      • Tip 2:Assign Suitable Credit
      • 策略梯度优化的技巧
    • Reinforce
      • 蒙特卡洛MC 与 时序差分TD
      • Reinforce算法
  • PPO(Proximal Policy Optimization)
    • 基础知识
    • From On-policy to Off-policy
      • Importance Sampling
        • Importance Sampling 的问题
    • PPO 算法
      • KL divergence(KL散度)
      • PPO 1
      • PPO 2

策略梯度Policy Gradient

基础知识

  • actor:做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等。(操作policy gradient要学习的对象, 是我们可以控制的部分)

  • environment:游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等。(给定的,无法控制)

  • reward function:是当你做什么事情,发生什么状况的时候,你可以得到多少分数, 比如说杀一只怪兽得到 20 分等等。(无法控制)

  • policy:是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。policy 一般写成π

  • Policy of actor π:假设你是用 deep learning 的技术来做reinforcement learning 的话,policy 就是一个 network。Network 里面就有一堆参数, 我们用 θ 来代表 π 的参数。 Network 的 input 就是现在 machine 看到的东西,Output 的就是机器要采取什么样的行为。
    深度强化学习-策略梯度及PPO算法-笔记(四)_第1张图片

  • episode(回合):一场游戏就叫做一个episode或者trial(试验),是指游戏从开始到结束的一个完整的回合。
    深度强化学习-策略梯度及PPO算法-笔记(四)_第2张图片

  • R (return回报):把这个游戏里面,所有得到的 reward 都总合起来,就是 total reward,用 R 表示。

  • actor的目标:maximize 它可以得到的 reward

  • Trajectory:一个episode里,我们把environment输出的s和actor输出的a全部串联起来,叫做一个trajectory。
    在这里插入图片描述

  • trajectory 发生的概率

  • 假设现在给定了 actor 的参数θ,根据这个参数可以计算某一个trajectory 发生的概率:
    深度强化学习-策略梯度及PPO算法-笔记(四)_第3张图片
    这个概率取决于两个部分:

  1. environment 的行为 :environment 的 function 它内部的参数或内部的规则长什么样子。p(st+1 | st, at)这一项代表的是 environment,这一
    项通常是无法控制的,因为这个环境是别人写好的。
  2. agent 的行为:我们能控制的是pθ( a

你可能感兴趣的:(学习笔记,强化学习)