基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR...

基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR..._第1张图片

作者:知乎用户@王沃河

编者按

深度强化学习(DRL)的一炮走红,让人们一谈起强化学习首先想到的往往是DRL,而强化学习最早的起源来自 optimal control theory 。LQR和iLQR 作为最优控制/基于模型的强化学习算法,在环境动态系统已知的情况下能更加高效的利用样本,并在化工生产过程,无人驾驶,机械臂控制等实际应用场景取得了很好的效果。

1 背景

强化学习(RL)本质上是一种控制算法。大多语境下RL都是指无模型的RL算法,而依赖于模型的控制方法LQR、MPC等被归为有模型的RL,他们的假设是环境的动态特性已知。基于模型的RL往往被认为有更高的样本利用效率。我们将介绍常见的最优控制/轨迹优化算法LQR(线性二次型调节器)及其非线性版本iLQR(迭代LQR)算法。有意思的是,LQR问题在离散时间情况下其实是通过动态规划来解的。本文的算法介绍包含三部分内容 i)LQR ii)iLQR iii)iLQR的改进。

2 任务定义

基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR..._第2张图片

基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR..._第3张图片

基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR..._第4张图片

3 解决方案

LQR

基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR..._第5张图片

注意,其中C矩阵是根据实际控制需求人为设定的,F是已知的。

明确一下,我们的目标,找到使得(3)最小的轨迹。由于环境和cost是已知的,我们不需要进行无模型RL中的探索环节,通过规划(planning)即可得到最优策略和动作。解决LQR问题的方法即是借鉴动态规划算法,求解思路如下:

1)看最后一步,得到子问题。

2)求子问题最优解。

3)根据状态转移(模型),得到包含已求解过的子问题的新子问题

4)跳转到

你可能感兴趣的:(基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR...)