PyTorch深度学习实战(45)——强化学习

PyTorch深度学习实战(45)——强化学习

    • 0. 前言
    • 1. 强化学习基础
      • 1.1 基本概念
      • 1.2 马尔科夫决策过程
      • 1.3 目标函数
      • 1.4 智能体学习过程
    • 2. 计算状态值
    • 3. 计算状态-动作值
    • 4. Q 学习
      • 4.1 Q 值
      • 4.2 Gym环境
      • 4.3 构建 Q 表
      • 4.4 探索-利用策略
    • 小结
    • 系列链接

0. 前言

强化学习是当前人工智能领域的研究热点问题,强化学习主要通过考察智能体与环境的相互作用,得到策略模型、优化策略并最大化累积回报的过程。强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键技术。本文首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题等,然后介绍经典的强化学习算法,最后使用 PyTorch 实现在游戏中模拟强化学习算法。

1. 强化学习基础

1.1 基本概念

强化学习 (Reinforcement learning, RL) 是机器学习中的一个重要领域,其核心思想在于最大化智能体在相应环境中得到的累计奖励,重点研究智能体应该如何在给定环境状态下执行动作来最大化累积奖励,从而学习能够令智能体完成目标任务的最佳策略。智能体 (agent) 在每个时刻可以与环境 (environment) 交互,交互过程如下所示:

PyTorch深度学习实战(45)——强化学习_第1张图片

每次交互,都可以得到一个具有多维特征的观察 (

你可能感兴趣的:(深度学习,pytorch,强化学习)