强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】

 

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第1张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第2张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第3张图片

一、Motivating examples 

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第4张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第5张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第6张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第7张图片

二、最优策略/optimal policy

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第8张图片

三、贝尔曼最优公式【Bellman Optimality Equation】

1、贝尔曼公式/Bellman Equation

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第9张图片

2、贝尔曼最优公式/Bellman Optimality Equation

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第10张图片

对于贝尔曼公式来说,求解state value时是依赖于一个给定的π;

对于贝尔曼最优公式来说,π是不定的,是需要求解的参数;

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第11张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第12张图片

3、压缩映射定理【Contraction mapping theorem】

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第13张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第14张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第15张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第16张图片

4、求解贝尔曼最优公式

4.1 最大化贝尔曼最优公式右侧

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第17张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第18张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第19张图片

4.2 解贝尔曼最优公式

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第20张图片

4.3 应用“压缩映射定理”解贝尔曼最优公式

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第21张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第22张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第23张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第24张图片

4.4 案例:求解贝尔曼最优公式

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第25张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第26张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第27张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第28张图片

四、最优策略/Optimal Policy

贝尔曼最优公式是一个特殊的贝尔曼公式。

贝尔曼最优公式对应的策略是最优策略。

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第29张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第30张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第31张图片

五、最优策略的决定因素

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第32张图片

当γ比较大时,会比较远视,得到的return中远期的reward比重会相对大一些;

当γ比较小时,会比较短视,得到的return中近期的reward权重会相对大一些;

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第33张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第34张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第35张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第36张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第37张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第38张图片

强化学习-赵世钰(三):贝尔曼最优公式【Bellman Optimality Equation】、最优策略【Optimal Policy/Optimal State Values】_第39张图片

在设计reward的时候,即使将默认r设计为0,也不会绕远路,因为除了r来约束不要绕远路,γ的存在也会限制不会绕远路,因为越绕远路,得到的reward越晚,最后计算得到的return越小。




【强化学习的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili

GitHub - MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning: This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning."

你可能感兴趣的:(强化学习)