强化学习(Reinforcement Learning, RL)概览

一、强化学习的核心概念与定位

1. 定义
强化学习是机器学习的分支,研究智能体(Agent)在动态环境中通过与环境交互,以最大化累积奖励为目标的学习机制。与监督学习(有标注数据)和无监督学习(无目标)不同,强化学习通过“试错”学习,不依赖先验知识,适合解决动态决策问题。

强化学习(Reinforcement Learning, RL)概览_第1张图片

2. 核心要素

  • 智能体(Agent):执行决策的主体,如游戏AI、机器人。
  • 环境(Environment):智能体之外的一切,如棋盘、物理世界。
  • 状态(State, S):环境的完整描述, s t ∈ S s_t \in \mathcal{S} stS
  • 动作(Action, A):智能体的决策, a t ∈ A ( s t ) a_t \in \mathcal{A}(s_t) atA(st)
  • 奖励(Reward, R):环境对动作的反馈, r t + 1 = R ( s t , a t , s t + 1 ) r_{t+1} = R(s_t, a_t, s_{t+1}) rt+1=R(st,at,st+1)
  • 策略(Policy, π):状态到动作的映射, π ( a ∣ s ) = P ( a t = a ∣ s t = s ) \pi(a|s) = P(a_t=a|s_t=s) π(as)=P(at=ast=s)
  • 价值函数(Value Function):评估状态或动作的长期奖励,如状态价值 V π ( s ) V^\pi(s) Vπ(s)、动作价值 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a)

基本框架
强化学习主要由智能体和环境组成。由于智能体与环境的交互方式与生物跟环境的交互方式类似,因此可以认为强化学习是一套通用的学习框架,是通用人工智能算法的未来。

强化学习的基本框架如图所示,智能体通过状态、动作、奖励与环境进行交互。

  • 假设图中环境当前处于时刻t的状态记为 s t s_t st
  • 智能体在环境中执行某动作 a t a_t at
  • 这时候该动作 a t a_t at改变了环境原来的状态并使得智能体在时刻t+1到达新的状态 s t + 1 s_{t+1} st+1
  • 在新的状态使得环境产生了反馈奖励 r t + 1 r_{t+1} rt+1给智能体。
  • 智能体基于新的状态 s t + 1 s_{t+1} st+1
  • 和反馈奖励 r t + 1 r_{t+1} rt+1
  • 执行新的动作 a t + 1 a_{t+1} at+1
  • 如此反复迭代地与环境通过反馈信号进行交互。
  • 上述过程的最终目的是让智能体最大化累积奖励(Cumulative Reward),公式为累积奖励 G G G
    G = r 1 + r 2 + ⋯ + r n G=r_1+r_2+⋯+r_n G=r1+r2++rn
    在上述过程中,如何根据状态 s t s_t st和奖励 r t r_t rt
    选择动作的规则称为策略 π π π,其中价值函数(Value Function) v v v是累计奖励的期望。
    强化学习(Reinforcement Learning, RL)概览_第2张图片
二、数学基础:马尔可夫决策过程(MDP)

1. MDP定义
MDP是强化学习的标准数学模型,由五元组 ( S , A , P , R , γ ) (S, A, P, R, \gamma) (S,A,P,R,γ)组成:

  • 状态转移概率 P ( s ′ ∣ s , a ) = P ( s t + 1 = s ′ ∣ s t = s , a t = a ) P(s'|s,a) = P(s_{t+1}=s'|s_t=s, a_t=a) P(ss,a)=P(st+1=sst=s,at=a)
  • 奖励函数 R ( s , a , s ′ ) R(s,a,s') R(s,a,s)表示从状态 s s s执行动作 a a a转移到 s ′ s' s的即时奖励。
  • 折扣因子 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1],用于平衡即时与长期奖励。

2. 关键公式

  • 回报(Return) G t = r t + 1 + γ r t + 2 + γ 2 r t + 3 + ⋯ = ∑ k = 0 ∞ γ k r t + k + 1 G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dots = \sum_{k=0}^\infty \gamma^k r_{t+k+1} Gt=rt+1+γrt+2+γ2rt+3+=k=0γkrt+k+1
  • 贝尔曼方程(Bellman Equation)
    • 状态价值: V π ( s ) = E π [ r t + 1 + γ V π ( s t + 1 ) ∣ s t = s ] V^\pi(s) = \mathbb{E}_\pi [r_{t+1} + \gamma V^\pi(s_{t+1}) | s_t=s] Vπ(s)=Eπ[rt+1+γVπ(st+1)st=s]
    • 动作价值: Q π ( s , a ) = E π [ r t + 1 + γ Q π ( s t + 1 , a t + 1 ) ∣ s t = s , a t = a ] Q^\pi(s,a) = \mathbb{E}_\pi [r_{t+1} + \gamma Q^\pi(s_{t+1},a_{t+1}) | s_t=s, a_t=a] Qπ(s,a)=Eπ[rt+1+γQπ(st+1,at+1)st=s,at=a]
三、强化学习算法分类与核心技术

1. 按学习目标分类

类别 核心思想 代表算法
基于价值 学习价值函数,间接获取最优策略 Q-learning、Sarsa、DQN、Dueling DQN
基于策略 直接学习最优策略参数 Policy Gradients、PPO、TRPO
Actor-Critic 结合价值与策略,同时学习价值函数和策略 A3C、DDPG、TD3、SAC

2. 基于价值的算法

  • Q-learning:离线策略(Off-Policy),利用贝尔曼最优方程更新Q值:
    Q ( s t , a t ) ← Q ( s t , a t ) + α [ r t + 1 + γ max ⁡ a Q ( s t + 1 , a ) − Q ( s t , a t ) ] Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1} + \gamma \max_a Q(s_{t+1},a) - Q(s_t,a_t)] Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]
  • Sarsa:在线策略(On-Policy),更新公式:
    Q ( s t , a t ) ← Q ( s t , a t ) + α [ r t + 1 + γ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ] Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha [r_{t+1} + \gamma Q(s_{t+1},a_{t+1}) - Q(s_t,a_t)] Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]
  • 深度Q网络(DQN):结合CNN与Q-learning,引入两大技术:
    • 经验回放(Experience Replay):打破样本相关性,存储 ( s t , a t , r t + 1 , s t + 1 ) (s_t,a_t,r_{t+1},s_{t+1}) (st,at,rt+1,st+1)到缓冲区随机采样训练。
    • 目标网络(Target Network):冻结参数的Q网络用于计算目标值,稳定训练。

3. 基于策略的算法

  • 策略梯度(Policy Gradients):通过梯度上升最大化期望回报:
    ∇ θ J ( θ ) = E π [ ∇ θ log ⁡ π θ ( a ∣ s ) Q π ( s , a ) ] \nabla_\theta J(\theta) = \mathbb{E}_\pi [\nabla_\theta \log \pi_\theta(a|s) Q^\pi(s,a)] θJ(θ)=Eπ[θlogπθ(as)Qπ(s,a)]
  • 近端策略优化(PPO):使用“信任区域”限制策略更新幅度,核心公式:
    L P P O = min ⁡ ( ρ t ( θ ) A t , clip ( ρ t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) \mathcal{L}^{PPO} = \min(\rho_t(\theta)A_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon)A_t) LPPO=min(ρt(θ)At,clip(ρt(θ),1ϵ,1+ϵ)At),其中 ρ t ( θ ) = π θ ( a t ∣ s t ) π θ old ( a t ∣ s t ) \rho_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)} ρt(θ)=πθold(atst)πθ(atst)

4. Actor-Critic算法

  • DDPG(深度确定性策略梯度):处理连续动作空间,由Actor(策略网络)和Critic(Q网络)组成:
    • Actor更新: ∇ θ μ J ≈ E s ∼ ρ β [ ∇ μ Q ( s , μ ( s ∣ θ μ ) ∣ θ Q ) ] \nabla_{\theta^\mu} J \approx \mathbb{E}_{s \sim \rho^\beta} [\nabla_\mu Q(s,\mu(s|\theta^\mu)|\theta^Q)] θμJEsρβ[μQ(s,μ(sθμ)θQ)]
    • Critic更新: y i = r i + γ Q ′ ( s i + 1 , μ ′ ( s i + 1 ∣ θ μ ′ ) ∣ θ Q ′ ) y_i = r_i + \gamma Q'(s_{i+1}, \mu'(s_{i+1}|\theta^{\mu'})|\theta^{Q'}) yi=ri+γQ(si+1,μ(si+1θμ)θQ),优化 L = 1 N ∑ ( y i − Q ( s i , a i ∣ θ Q ) ) 2 L = \frac{1}{N}\sum(y_i - Q(s_i,a_i|\theta^Q))^2 L=N1(yiQ(si,aiθQ))2
四、关键问题与技术

1. 探索与利用(Exploration-Exploitation)

  • ε-贪心:以概率 ε \varepsilon ε随机选择动作, 1 − ε 1-\varepsilon 1ε选择当前最优动作。
  • UCB(上置信界):选择动作 a a a满足 a = arg ⁡ max ⁡ a ( Q ( s , a ) + c ln ⁡ N ( s ) N ( s , a ) ) a = \arg\max_a \left(Q(s,a) + c\sqrt{\frac{\ln N(s)}{N(s,a)}}\right) a=argmaxa(Q(s,a)+cN(s,a)lnN(s) ),平衡估计不确定性。
  • 汤普森采样:根据后验分布采样策略参数,适用于概率模型。

2. 动态规划(DP)在RL中的应用

  • 策略迭代:交替进行策略评估(计算 V π V^\pi Vπ)和策略改进( π ′ = arg ⁡ max ⁡ a Q π ( s , a ) \pi' = \arg\max_a Q^\pi(s,a) π=argmaxaQπ(s,a))。
  • 价值迭代:直接迭代求解贝尔曼最优方程: V k + 1 ( s ) = max ⁡ a E [ r + γ V k ( s ′ ) ∣ s , a ] V_{k+1}(s) = \max_a \mathbb{E}[r + \gamma V_k(s')|s,a] Vk+1(s)=maxaE[r+γVk(s)s,a]

3. 连续状态与动作空间处理

  • 函数近似:使用神经网络、决策树等参数化价值函数或策略。
  • 确定性策略:如DDPG、TD3,直接输出连续动作(而非概率分布)。
  • 随机策略:如SAC(软演员-评论家),引入熵正则化提升探索性。

4. 多智能体强化学习(MARL)

  • 合作型:智能体共享奖励,如星际争霸AI。
  • 竞争型:零和博弈,如AlphaGo的蒙特卡洛树搜索(MCTS)与RL结合。
  • 混合策略:部分合作部分竞争,需处理非平稳环境(其他智能体策略变化)。
五、深度强化学习(DRL)前沿技术

1. 核心改进算法

  • Rainbow DQN:融合Double DQN、Dueling DQN、Prioritized Experience Replay等6大技术。
  • TD3( Twin Delayed DDPG):双Q网络减少过估计,延迟策略更新稳定训练。
  • SAC(Soft Actor-Critic):最大化“奖励+熵”,实现离线策略学习,适合样本效率要求高的场景。

2. 架构创新

  • 分层强化学习(HRL):将任务分解为高层策略(目标制定)和低层策略(动作执行),如机器人分层导航。
  • 模仿学习(Imitation Learning):从专家演示中学习,解决RL样本效率低的问题,包括行为克隆和逆强化学习(IRL)。
  • 元强化学习(Meta-RL):学习“如何学习”,快速适应新任务,如模型无关元学习(MAML)。

3. 模型-based RL

  • 与模型-free对比
    • 模型-free:直接学习价值或策略(如DQN、PPO),需大量交互。
    • 模型-based:先学习环境动态模型 P ( s ′ ∣ s , a ) , R ( s , a , s ′ ) P(s'|s,a), R(s,a,s') P(ss,a),R(s,a,s),再用规划(如DP)求解,样本效率高但模型误差可能导致偏差。
六、应用场景与挑战

1. 典型应用

  • 游戏AI:AlphaGo(围棋)、OpenAI Five(Dota 2)、DeepMind Atari游戏系列。
  • 机器人控制:波士顿动力机器人行走、机械臂抓取物体。
  • 推荐系统:动态调整推荐策略,最大化用户点击与留存。
  • 自动驾驶:决策层路径规划与避障。

2. 关键挑战

  • 样本效率:RL需大量交互数据,真实场景中难以获取(如机器人实验成本高)。
  • 收敛性:非凸优化问题,易陷入局部最优(如Policy Gradients)。
  • 探索难题:复杂环境中难以平衡探索收益与风险(如星际争霸的多决策点)。
  • 奖励设计:稀疏奖励(如机器人学会开门)需人工设计或课程学习(Curriculum Learning)。
七、数学补充:重要推导与公式

1. 策略梯度定理
∇ θ J ( θ ) = ∫ S π θ ( s ) ∑ a ∇ θ π θ ( a ∣ s ) Q π ( s , a ) d s \nabla_\theta J(\theta) = \int_S \pi_\theta(s) \sum_a \nabla_\theta \pi_\theta(a|s) Q^\pi(s,a) ds θJ(θ)=Sπθ(s)aθπθ(as)Qπ(s,a)ds,其中 π θ ( s ) = ∑ a 1 , a 2 , … π θ ( a 1 ∣ s 0 ) ∏ t = 1 ∞ P ( s t ∣ s t − 1 , a t − 1 ) π θ ( a t ∣ s t ) \pi_\theta(s) = \sum_{a_1,a_2,\dots}\pi_\theta(a_1|s_0)\prod_{t=1}^\infty P(s_t|s_{t-1},a_{t-1})\pi_\theta(a_t|s_t) πθ(s)=a1,a2,πθ(a1s0)t=1P(stst1,at1)πθ(atst)

2. Actor-Critic的优势函数
优势函数 A π ( s , a ) = Q π ( s , a ) − V π ( s ) A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s) Aπ(s,a)=Qπ(s,a)Vπ(s),表示动作 a a a在状态 s s s下相对于平均策略的优劣。

八、学习资源与前沿方向

1. 经典教材与论文

  • 《Reinforcement Learning: An Introduction》(Sutton & Barto,RL圣经)。
  • DQN论文:《Human-Level Control Through Deep Reinforcement Learning》(Nature, 2015)。
  • PPO论文:《Proximal Policy Optimization Algorithms》(OpenAI, 2017)。

2. 前沿方向

  • 大规模分布式RL:如Google的IMPALA,处理万亿级样本。
  • 神经符号RL:结合神经网络与符号推理,提升可解释性。
  • 安全RL:约束条件下的优化(如自动驾驶安全性)。

你可能感兴趣的:(人工智能,人工智能,强化学习,机器学习,机器人)