LLMs基础学习(八)强化学习专题(7)

LLMs基础学习(八)强化学习专题(7)

文章目录

  • LLMs基础学习(八)强化学习专题(7)
      • Actor - Critic 算法基础原理
        • 算法流程细节
        • 算法优缺点分析
        • 算法核心总结

视频链接:https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c6918a09b65d319a99a

Actor - Critic 算法基础原理

  1. 提出背景:REINFORCE 算法存在采样方差大、学习效率低的问题(需采集完整轨迹算回报 ),Actor - Critic 算法借鉴时序差分学习思想,用动态规划方式,通过当前动作即时奖励 r ( s , a , s ′ ) r(s,a,s') r(s,a,s) 和下一状态 s ′ s' s 的值函数近似估计总回报,提升采样效率。

  2. 算法本质:结合策略梯度时序差分学习的强化学习方法,由两部分构成

    • Actor(演员):对应策略函数 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as),功能是学习策略以获取高回报,负责生成动作并与环境交互 。
    • Critic(评论家):对应值函数 V π ( s ) V^\pi(s) Vπ(s),作用是估计当前策略的值函数,评估 Actor 表现,指导其下一阶段动作;借助它可实现单步参数更新,无需等回合结束。
算法流程细节
  1. 输入参数:迭代轮数 T、状态特征维度 n、动作集 A、步长 α , β \alpha,\beta α,β、衰减因子 γ \gamma γ、探索率 ϵ \epsilon ϵ
  2. 输出结果:Actor 网络参数 θ \theta θ、Critic 网络参数 w 。
  3. 执行步骤
  4. 初始化:随机设置所有状态 - 动作对的价值 Q 。
  5. 迭代过程(循环 T 轮 ):
    • 状态与特征:确定当前初始状态 S,提取特征向量 ϕ ( S ) \phi(S) ϕ(S)
    • 动作生成与交互:Actor 网络以 ϕ ( S ) \phi(S) ϕ(S) 为输入,输出动作 A;执行动作后,得到新状态 S ′ S' S 和环境反馈奖励 R 。
    • 价值估计:Critic 网络分别输入 ϕ ( S ) \phi(S) ϕ(S) ϕ ( S ′ ) \phi(S') ϕ(S) ,输出对应状态价值 V ( S ) V(S) V(S) V ( S ′ ) V(S') V(S)
    • TD 误差计算: δ = R + γ V ( S ′ ) − V ( S ) \delta = R + \gamma V(S') - V(S) δ=R+γV(S)V(S) ,反映当前预测价值与目标价值的偏差。
    • Critic 更新:用均方差损失函数 ∑ ( R + γ V ( S ′ ) − V ( S , w ) ) 2 \sum(R + \gamma V(S') - V(S, w))^2 (R+γV(S)V(S,w))2 对 Critic 网络参数 w 做梯度更新 。
    • Actor 更新:依据公式 θ = θ + α ∇ θ log ⁡ π ( S t , A ) δ \theta = \theta + \alpha\nabla\theta\log\pi(S_t, A)\delta θ=θ+αθlogπ(St,A)δ 更新 Actor 参数 θ \theta θ ;其中 Actor 的分值函数 ∇ θ log ⁡ π ( S t , A ) \nabla\theta\log\pi(S_t, A) θlogπ(St,A) ,可选 softmax(离散动作场景 )或高斯分值函数(连续动作场景 )。
算法优缺点分析

(一)优点

  1. 适配复杂动作空间:对比 Q - learning 等以值函数为中心的算法,因采用策略梯度,能在连续动作空间高维动作空间有效选取动作;而 Q - learning 需对每个动作估值,维度升高时存储、查找难度剧增,效率极低甚至无法操作。
  2. 高效更新机制:相较于单纯策略梯度算法(如 REINFORCE ),融入策略评估(Critic 的作用 ),支持单步更新(on - line 更新 ),无需等 Agent 跑完整个回合;REINFORCE 需汇总回合内所有奖励再更新,存在样本利用率低、收敛慢、更新噪声大等问题,Actor - Critic 通过 Critic 即时反馈(如 TD 误差 ),提升学习效率。

(二)缺点与改进

  1. 基础版缺陷:基本的 Actor - Critic 算法收敛难度大,因两个神经网络(Actor、Critic )相互依赖且都要梯度更新,易出现训练不稳定。

  2. 经典改进算法

  • 深度确定性策略梯度(DDPG):引入双 Actor 神经网络双 Critic 神经网络,优化收敛性;通过不同网络结构分工,缓解训练中的不稳定问题 。
    LLMs基础学习(八)强化学习专题(7)_第1张图片
    • 异步优势演员 - 评论员(A3C):采用多线程模式,主线程负责更新 Actor 和 Critic 参数,多个辅线程并行与环境交互,收集梯度更新值反馈给主线程;辅线程定期从主线程同步参数,类似 DQN 的经验回放机制但效果更优,利用并行计算加速学习过程。
      LLMs基础学习(八)强化学习专题(7)_第2张图片
算法核心总结

Actor - Critic 算法是强化学习中结合策略梯度和时序差分的经典框架,通过 Actor 生成动作、Critic 评估指导,实现更高效的学习更新;虽基础版有收敛难题,但衍生出 DDPG、A3C 等改进算法拓展应用,是理解强化学习中 “策略学习 + 价值评估” 融合模式的关键内容,为复杂场景下智能体决策训练提供思路 。

你可能感兴趣的:(NLP,学习,Actor-Critic,算法)