今天看啥  ›  专栏  ›  Plenari

1.DRl

Plenari  · 简书  ·  · 2019-06-12 10:03

1. DRL-1

1.DeppMind(openai) Policy Gradient

  • 基本的组件:Actor Env Reward Function。
    除了Actor可以自己控制外,其他的都不可以优化处理。
  • Policy of Actor (Policy=神经网络)
  • 动作、环境、奖励的关系


    image.png

    这样形成了一个轨迹,和轨迹参数对应的出现几率。
    在不同环境做不同的动作会有不同的奖励。


    image.png

我们希望得到奖励的期望值。方式是:穷举不同的运动轨迹得到出现的概率和对应的奖励,然后求平均。

  • Policy Grdient

![image.png](https:http://img2.jintiankansha.me/get6?src=http://upload-images.jianshu.io/upload_images/11875530-52dc9c37 * 576e9968.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

我们比较在意与动作用关的项。

image.png

一个参数theta对应很多tao,每一个tao对应的过程,
p_(theta)(atn|stn)是对每一个轨迹的每一个时刻的状态和动作求概率,并求log,然后求导。最后乘以改组参数的的奖励,在把所有的轨迹求平均。

2. DRL-2

  • on-Policy off-policy的区别
    自己参与学习过程,on-policy,通过观察学习,off-policy

1.off-policy

  • importance sampling

3.Critic

image.png

1.Monte-Carlo(MC) based

image.png

2. Temporal-difference(TD) approach

中间值差分?


image.png
  • 两者的差距

蒙特卡罗方法,得到较大的方差。因为,从头做到最后的中间过程太多了。差分方法是具有较小的方差。


image.png
  • another critic
    Qpi(s,a)在s状态强制使用动作a。
image.png

只针对离散的动作有效。

  • Q-learing


    image.png

    已经学到pi,在某个s,代入a,然后求出最大的Q,就可以得到pi,状态s对应的a。pi 至于Q有关。
    pi'方程
    ** 动作不要是连续的值。
    为什么得到的就比较好呢?

  • 参考
  1. https://www.youtube.com/watch?v=z95ZYgPgXOY



原文地址:访问原文地址
快照地址: 访问文章快照