名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder)
目录
- 一、策略梯度简介
- 1. 直接优化策略函数
- 2. REINFORCE 算法
- 二、Actor-Critic 方法
- 1. 结合价值函数与策略函数
- 2. 代码练习:实现一个简单的 Actor-Critic 模型
- 三、策略梯度方法的进阶
- 1. 优势Actor-Critic (A2C/A3C)
- 2. 近端策略优化 (PPO)
- 四、总结与实践建议
- 五、延伸阅读
专栏介绍: Python星球日记专栏介绍(持续更新ing)
✅ 上一篇: 《Python星球日记》 第84天:Q-Learning 与 DQN
欢迎回到Python星球日记!今天是我们旅程的第85天。
在我们前面的学习中,已经了解了