名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder)
目录
- 一、强化学习基础回顾
- 1. 核心元素与术语
- 二、Q-Learning 算法详解
- 1. Q 表更新公式
- 2. 探索与利用(Exploration vs Exploitation)
- 3. Q-Learning 示例
- 三、DQN(Deep Q-Network)算法
- 1. 使用神经网络近似 Q 函数
- 2. 经验回放与目标网络
- (1) 经验回放(Experience Replay)
- (2) 目标网络(Target Network)
- 3. DQN 算法的完整流程
- 四、代码实践:使用 OpenAI Gym 环境实现强化学习算法
- 1. Q-Learning 实现:FrozenLake-v1 环境
- 2. DQN 实现:CartPole-v1 环境
- 五、Q-Learning 与 DQN 的比较与应用场景
- 六、进阶: 强化学习的其他算法与发展方向
- 1. Q-Learning 的改进版本
- 2. 策略梯度算法
- 3. 模型型强化学习
- 七、总结与展望
- 八、参考资源
专栏介绍: Python星球日记专栏介绍(持续更新ing)
✅ 上一篇: 《Python星球日记》 第83天:强化学习概述
欢迎回到Python星球日记!今天是我们旅程的第83天。
今天我们将深入探索强化学习中两个核心算法:Q-Learning和Deep Q-Network (DQN)。这两种方法是解决顺序决策问题的强大