强化学习是一种吸引机器人学习新任务的方法。相关文献揭示了大量的方法,但同时也清楚地表明了在处理现实生活中的挑战时缺乏实现。目前的预期提高了对适应性机器人的需求。我们认为,采用基于模型的强化学习,可以扩展机器人系统目前有限的适应性特征。此外,与无模型方法相比,基于模型的强化学习具有更适用于实际用例的优点。因此,在本次调查中,将介绍机器人学中应用的基于模型的方法。我们根据最优策略的推导、返回函数的定义、转换模型的类型和学习任务对它们进行分类。最后,我们讨论了基于模型的强化学习方法在新应用中的适用性,同时考虑到算法和硬件的最新进展。
低成本机器人不可避免地会影响其精度和重复性,以及其内部传感设备的质量。因此,需要重新考虑学习技术在这一新型机器人上的应用特点。这项工作的目标有两个:
1.以基于模型的方法为重点,对机器人领域的RL进行了最新的综述,并展示了它们的相对优势;
2研究RL方法处理低成本机械手挑战的适当性,并根据第7节中的建议,总结出一种稳健可靠的基于模型的RL方法,用于使用低成本机械手执行任务。
为了实现第一个目标,我们研究了基于模型的RL在模拟和实际机器人系统中的应用文献。我们提出了价值函数和策略搜索方法,以及设置返回函数和学习过渡模型的策略,这些策略已成功应用于机器人系统。我们只有在分析了最先进的技术并结合从我们的第一个目标中得出的结果之后,才能实现我们的第二个目标。
强化学习的原理
RL方法主要分为两类:无模型(也称为直接)方法和基于模型(也称为间接)方法。基于模型和无模型RL的主要区别在于是否采用了机器人与环境之间交互作用的模型。
1.在无模型方法中,没有一个模型,因此通过与物理系统的试错法得到奖励和最佳行动。
2.在基于模型的方法中,存在一种用于推导奖励和最优动作的过渡动力学模型。因此,在模型中对策略进行了优化,并在物理系统中应用了最优策略。
有模型和无模型之间的对比
价值函数选择
策略迭代
模型转换
上一节展示了基于模型的RL在各种机器人应用中的成功部署。然而,如果不是所有被调查的作品都有一个共同点的话,那就是他们处理的是简单或“好玩”的任务,比如打乒乓球、羽毛球和摆秋千。即使在处理更具挑战性的任务时,例如自动车辆的操纵,实际报告的是非常有限的实际适用性的成功试验。相关文献显然缺乏基于模型的RL在需要可靠性和健壮性的更“严重”领域的应用实例,例如在役或工业机器人。这一观察结果不仅与基于模型的RL相关,而且扩展到一般的机器学习。然而,这样的应用可以大大受益于机器人机械手学习和执行与人类协作(或仅仅共存)任务的能力,同时总是适应环境或操纵对象的变化。在机器人教学中采用RL算法可以解决很大一部分适应性问题。当然,对于这样的任务,最可取的方法似乎是基于模型的RL,因为与无模型的RL相比,它需要与环境的交互更少。这是由于使用了过渡模型,而且更可取,因为通过最小化与环境的相互作用,事故的危险和机器人的磨损也最小化了。因此,我们在前几节分析的基础上,阐述了基于模型的RL方法如何应用于服务、工业和其他机器人领域的机器人。以pick-and-place为例;一种非常常见(在许多任务中都存在)且具有潜在挑战性(可以将组装视为pick-and-place的特殊情况)的操作。
为了学习一种适应性的拾取和放置操作,机械手应该配备传感器来感知环境,以便识别被操纵的物体和可能的碰撞。碰撞避免是系统的一个重要特性,可以通过适当定义回报函数来实现,回报函数可以是报酬和成本的混合。奖励可以表示当前状态和目标状态之间的距离,也可以表示策略优化方法得到的轨迹的平滑度。对于不需要的状态,例如碰撞,可以引入成本。另一个可取的特性是策略学习过程的快速收敛;因此策略迭代不可取,因为它们遭受第2节所述的缓慢收敛。另一方面,值迭代方法不适合于大的连续状态和动作空间,因为它们需要计算一个基于状态或基于状态动作的无限值函数。同样的缺点也适用于抽样和TD学习方法,除了他们假设没有关于转换模型的先验知识外。
DDP从类值函数的方法可以得到一个可能的解决方案,但它对初始演示轨迹的要求降低了系统的自主性。此外,信息论算法依赖于初始轨迹的存在,这也降低了系统的自主性。因此,策略搜索方法似乎更能处理协作机器人应用程序提出的需求。这是因为他们能够通过参数化策略函数和推断适当的参数来降低策略学习问题的维数。在这些方法中,最有前途的是基于梯度和采样的方法。考虑到转换模型对学习算法的性能有重要影响,应根据任务的不同仔细选择它们。目前,在机器人市场上,有一个趋势是低成本,顺应机器人机械手。这些特性使它们对人类来说更经济、更安全,但同时也对过渡建模提出了重大挑战。其中一个挑战,是使用弹性关节,这是非常困难的模型使用基于物理的方法巴克斯特机器人反思机器人(图11a)是一个典型的例子。另一个挑战是使用的内部传感器质量低,即使降低了成本,也会导致噪声测量。
为了使事情变得更加困难,还存在没有配备力/扭矩传感器的机械手,而是使用近似方法来估计应用力矩通用机器人(图11B)模型。
有代表性的例子。这些问题对模型学习的影响在[94]中进行了研究,其中探讨了是否需要一个能够从噪声感官数据中学习并处理输入中不确定性的随机转换模型。