四、Actor-Critic Methods

由于在看DRL论文中,很多公式都很难理解。因此最近在学习DRL的基本内容。

再此说明,非常推荐B站 “王树森 老师的DRL 强化学习” 本文的图表及内容,都是基于王老师课程的后自行理解整理出的内容。

目录

A. 书接上回

1、Reinforce 算法

B. State-Value Function

C. Policy NetWork(Actor)

D. Action Value Network(Critic)

E.Train the Neural Networks

一、更新Neural Network的流程

F. Update Action Value network q using TD(Critic)

G.Update policy network Π using policy gradient(Actor)

H.总结 Actor-Critic Method

A. 书接上回

在上篇文章中谈到了如何计算QΠ

共分为两种方法

1、Reinforce 算法

四、Actor-Critic Methods_第1张图片

但是其缺点是需要知道最后一轮的奖励,需要游戏玩完才能更新Policy网络

2、用神经网络近似Action-Value network QΠ

因此这样就有两个神经网络

1、Policy函数

2、Action-Value函数

你可能感兴趣的:(DRL深度强化学习,python,深度学习)