专栏名称: 自动驾驶小白说
输出专业自动驾驶算法教程的开发者社区. 🦈 官网: https://www.helloxiaobai.cn
今天看啥  ›  专栏  ›  自动驾驶小白说

【强化学习入门笔记】 2.3 蒙特卡洛方法

自动驾驶小白说  · 公众号  ·  · 2024-12-26 08:00
    

文章预览

2.3 蒙特卡洛方法 本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记. 本节我们将介绍强化学习中的蒙特卡洛方法. 2.3.1 MC Basic 2.3.1.1 mode-based方法 之前我们介绍的策略迭代中第二步PI, 计算新的策略 : 我们知道这一步的主要是计算 , 它依赖于已知概率分布:  , 也就是已知系统模型. 所以值迭代和策略迭代我们都称之为mode-based方法. 2.3.1.2 mode-free方法: MC Basic 那么如果我们并不知道系统模型, 但是却有大量观测到的数据. 我们就可以用数据来近似表达 : 其中 是 的采样, 样本一共有 个. 当 足够大时, 样本的均值就可以表达 的期望. 这类不基于系统模型, 而是基于观测数据的方法叫做mode-free方法. 上面介绍的直接用样本均值的基础方法叫MC Basic方法. 2.3.1.3 例子 我们以图中这个例子来说明MC Basic方法, 我们可以看到除了 和 其他的策略已经是最优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览