强化学习(王树森)

目录

  • 基本概念
  • 价值函数
    • 目的

基本概念

**策略函数(policy)**是根据观测到的状态做出决策
策略函数 π \pi π:S × \times × A → \rightarrow [0,1]是一个条件概率函数:
π \pi π(a|s) = P(A = a | S = s)
策略函数的输入是状态s和动作a,输出是一个0到1之间的概率值
奖励(reward)是在智能体执行一个动作之后,环境返回给智能体的一个数值
状态转移是指当前状态 s 变成新的状态 s’,状态转移的随机性来源于环境
状态转移函数是环境用于生成新的状态时用到的函数
随即状态转移函数
p(s’|s,a)=P(S’=s’,A=a)

意思是:如果观察到当前状态s以及动作a,那么p函数输出状态变成s’的概率
动作的随机性来源于策略函数
状态的随机性来源于状态转移函数
回报(return) *[累计奖励]*是指从当前时刻开始到一回合结束的所有奖励的总和,强化学习的目标是最大化回报,不是最大化当前的奖励
U t U_{t} Ut = R t R_{t} Rt + R t + 1 R_{t+1} Rt+1 + R t + 2 R_{t+2} Rt+2 + R t + 3 R_{t+3} Rt+3 + ···
但是在 t 时刻,除了 R t R_{t} Rt 以外的奖励对 t 时刻回报的重要性是依次降低的,因此 t 时刻的回报需要打一个折扣,即
U t U_{t} Ut = R t R_{t} Rt + γ γ^{} γ· R t + 1 R_{t+1} Rt+1 + γ 2 γ^{2} γ2· R t + 2 R_{t+2} Rt+2 + γ 3 γ^{3} γ3· R t + 3 R_{t+3} Rt+3 + ···

价值函数

目的

在 t 时刻,我们不知道 U t U_{t} Ut 的值,而我们又想预判 U t U_{t} Ut 的值从而知道局势的好坏,解决方案就是对 U t U_{t} Ut 求期望,消除掉其中的随机性
Q π Q_{\pi} Qπ(s,a)意思是在已经观测到的(s,a)情况下, U t U_{t} Ut 的期望

你可能感兴趣的:(强化学习)