1. DRL-1
1.DeppMind(openai) Policy Gradient
我们希望得到奖励的期望值。方式是:穷举不同的运动轨迹得到出现的概率和对应的奖励,然后求平均。
![image.png](https:http://img2.jintiankansha.me/get6?src=http://upload-images.jianshu.io/upload_images/11875530-52dc9c37 * 576e9968.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
我们比较在意与动作用关的项。
一个参数theta对应很多tao,每一个tao对应的过程,
p_(theta)(atn|stn)是对每一个轨迹的每一个时刻的状态和动作求概率,并求log,然后求导。最后乘以改组参数的的奖励,在把所有的轨迹求平均。
2. DRL-2
- on-Policy off-policy的区别
自己参与学习过程,on-policy,通过观察学习,off-policy
1.off-policy
3.Critic
1.Monte-Carlo(MC) based
2. Temporal-difference(TD) approach
中间值差分?
蒙特卡罗方法,得到较大的方差。因为,从头做到最后的中间过程太多了。差分方法是具有较小的方差。
- another critic
Qpi(s,a)在s状态强制使用动作a。
只针对离散的动作有效。
- https://www.youtube.com/watch?v=z95ZYgPgXOY