Partially Observable Markov Decision Process部分可观察的马尔可夫决策过程
部分可观察的马尔可夫决策过程(POMDP)是MDP的泛化。在POMDP模型中,系统(这里的系统可以用具体的机器人系统来代替)的动态响应和MDP类似(如状态转移矩阵),但是系统并不能直接观测到当前的状态,就是说系统不确定自己现在处于哪个状态。所以,系统需要对环境做一个感知,来确定自己处于哪个状态。0.引例1.定义POMDP可以对机器人和机器人所处的环境进行建模。通常,可以用一个七元数(S,A,P,R