【强化学习入门笔记】 2.2 策略迭代和截断策略迭代

自动驾驶小白说 · 公众号 · · 2024-12-16 08:00

文章预览

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记. 本节我们将介绍强化学习中的策略迭代求解方法. 2.2.1 算法步骤跟值迭代类似, 策略迭代也是一个迭代的方法, 主要分为策略计算(PE)和策略提升(PI)两步. 2.2.1.1 策略计算(PE) 首先在当前策略的基础上, 计算状态值 , 实际就是求解贝尔曼公式: 在1.4.4 贝尔曼公式求解中, 我们介绍了有两种求解方式:解析解和迭代求解. 但是解析解需要求逆矩阵, 所以常采用迭代求解的方式: 它的展开形式为: 其中是上一轮迭代的状态值, 初值可以设置为任意值. 直到$\left\|v_{\pi k}^{(j+1)}-v_{\pi k}^{(j)}\right\| 2.2.1.2 策略提升(PI) 有了状态值之后, 我们求解最优化问题, 得到新的最优策略 : 一定优于 , 详细证明可以前往书中查看. 展开形式写作: 之前我们介绍过, 最优策略一定是贪婪确定策略: 并且就是使得动作值最 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

开平广播电视台 · 事发开平！车辆发生侧翻！现场→

23 小时前

广东民生DV现场 · “闪了一下人就没了”，紧急提醒

2 天前

经视直播 · 太可怕！因为一次急刹车，32岁男子脑子漏水了？头痛到站立都困难

3 天前

经视直播 · 五一，国乒不休息！

3 天前

醒目视频 · “上班雨”“下班雨”，是老天爷专门欺负打工人吗？

3 天前

36氪 · 「谷子经济」爆火，这次轮到00后整顿A股了

4 月前

龙江市场监管 · 警惕“自动续费坑”!

1 月前

财经网 · 官宣：公立医院住院预交金，降！

1 月前