《Python星球日记》 第85天:策略梯度方法

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder)

目录

    • 一、策略梯度简介
      • 1. 直接优化策略函数
      • 2. REINFORCE 算法
    • 二、Actor-Critic 方法
      • 1. 结合价值函数与策略函数
      • 2. 代码练习:实现一个简单的 Actor-Critic 模型
    • 三、策略梯度方法的进阶
      • 1. 优势Actor-Critic (A2C/A3C)
      • 2. 近端策略优化 (PPO)
    • 四、总结与实践建议
    • 五、延伸阅读

专栏介绍: Python星球日记专栏介绍(持续更新ing)
上一篇: 《Python星球日记》 第84天:Q-Learning 与 DQN

欢迎回到Python星球日记!今天是我们旅程的第85天

一、策略梯度简介

在我们前面的学习中,已经了解了

你可能感兴趣的:(Python星球日记,python,直接优化策略,REINFORCE算法,Actor-Critic方法,策略梯度方法,策略梯度,PPO)