专栏名称: 自动驾驶小白说
输出专业自动驾驶算法教程的开发者社区. 🦈 官网: https://www.helloxiaobai.cn
今天看啥  ›  专栏  ›  自动驾驶小白说

【强化学习入门笔记】 2.2 策略迭代和截断策略迭代

自动驾驶小白说  · 公众号  ·  · 2024-12-16 08:00
    

文章预览

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记. 本节我们将介绍强化学习中的策略迭代求解方法. 2.2.1 算法步骤 跟值迭代类似, 策略迭代也是一个迭代的方法, 主要分为策略计算(PE)和策略提升(PI)两步. 2.2.1.1 策略计算(PE) 首先在当前策略 的基础上, 计算状态值 , 实际就是求解贝尔曼公式: 在1.4.4 贝尔曼公式求解中, 我们介绍了有两种求解方式:解析解和迭代求解. 但是解析解需要求逆矩阵, 所以常采用迭代求解的方式: 它的展开形式为: 其中 是上一轮迭代的状态值, 初值可以设置为任意值. 直到$\left\|v_{\pi k}^{(j+1)}-v_{\pi k}^{(j)}\right\| 2.2.1.2 策略提升(PI) 有了状态值 之后, 我们求解最优化问题, 得到新的最优策略 : 一定优于 , 详细证明可以前往书中查看. 展开形式写作: 之前我们介绍过, 最优策略一定是贪婪确定策略: 并且就是使得动作值 最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览