基于强化学习的机器人抓取之 stochastic search

前言

最近看google的机器人抓取算法QT-Opt,该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection,以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods,最终搞懂了stochastic search的原理。

stochastic search

也称为 stochastic optimazation。
大概思路是:首先随机选择一些actions,然后通过 Q-function 选出 Q-value 最大的action去执行。
抓取任务中,常用的随机选择actions的方法如下:
1、随机均匀采样:以当前机械臂末端位置为中心,随机均匀采样 n n n个actions。该篇论文的 n = 16 n=16 n=16
2、cross-entropy optimization method
(1)假设action满足均值为机械臂末端当前位置的高斯分布,
(2)以上述高斯分布随机选择 M M M个action
(3)计算每个action的Q-value
(4)选取Q最高的 N N N个action,计算这组action的均值和方差,并更新上述高斯分布的均值和方差
重复步骤(2-4) n n n次,最终得到 N N N个候选action。
google 的 Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection 论文中 M = 64 , N = 6 M=64,N=6 M=64,N=6,步骤(2-4)重复了3次。

cross-entropy optimization method的介绍可以参考http://t.csdn.cn/FlcOt。

你可能感兴趣的:(机器人-强化学习,强化学习,随机优化)