专栏名称: Plenari

学习笔记

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

1.DRl

Plenari · 简书 · · 2019-06-12 10:03

1. DRL-1

1.DeppMind（openai） Policy Gradient

基本的组件：Actor Env Reward Function。
除了Actor可以自己控制外，其他的都不可以优化处理。
Policy of Actor (Policy=神经网络)
动作、环境、奖励的关系

image.png

这样形成了一个轨迹，和轨迹参数对应的出现几率。
在不同环境做不同的动作会有不同的奖励。

image.png

我们希望得到奖励的期望值。方式是：穷举不同的运动轨迹得到出现的概率和对应的奖励，然后求平均。

Policy Grdient

![image.png](https:http://img2.jintiankansha.me/get6?src=http://upload-images.jianshu.io/upload_images/11875530-52dc9c37 * 576e9968.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

我们比较在意与动作用关的项。

image.png

一个参数theta对应很多tao，每一个tao对应的过程，
p_(theta)(atn|stn)是对每一个轨迹的每一个时刻的状态和动作求概率，并求log，然后求导。最后乘以改组参数的的奖励，在把所有的轨迹求平均。

2. DRL-2

on-Policy off-policy的区别
自己参与学习过程，on-policy,通过观察学习，off-policy

1.off-policy

importance sampling

3.Critic

image.png

1.Monte-Carlo(MC) based

image.png

2. Temporal-difference(TD) approach

中间值差分？

image.png

两者的差距

蒙特卡罗方法，得到较大的方差。因为，从头做到最后的中间过程太多了。差分方法是具有较小的方差。

image.png

another critic
Qpi(s,a)在s状态强制使用动作a。

image.png

只针对离散的动作有效。

Q-learing

image.png

已经学到pi,在某个s,代入a,然后求出最大的Q，就可以得到pi，状态s对应的a。pi 至于Q有关。
pi'方程
** 动作不要是连续的值。
为什么得到的就比较好呢？

参考

https://www.youtube.com/watch?v=z95ZYgPgXOY

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

芋道源码 · 熟悉 Redis 吗，那 Redis 的过期键删除策略是什么？

10 小时前

Java编程精选 · 常州地理试卷出现大量华为相关内容；微信输入法重磅更新：上线“一键AI问答”功能；谷歌重新采用分页显示搜索结果

2 天前

芋道源码 · 还在用Jenkins？快来试试这款简而轻的自动化部署工具吧！

4 天前

芋道源码 · 拒绝重复代码，封装一个多级菜单、多级评论、多级部门的统一工具类

5 天前

芋道源码 · 6月，软考要彻底爆了？！

6 天前

科技日报 · 近期还会出现新一波疫情吗？为什么要开展抗体检测？权威回应

1 年前

EHSCity · 上海地铁女乘客下车被屏蔽门夹住经送医抢救身亡，有关部门已介入

2 年前

司法兰亭会 · 袁超、刘栋：法律谈判的哲学与艺术 | 南开法律谈判课第三季·大升华

2 年前

CTR洞察 · 2019年主要央媒及广电机构网络传播效果评估

4 年前

朱伟老师 · ■考研英语阅读热点话题：自然灾害类✍ BBC NEWS：加州大火-20191025131228

4 年前