专栏名称: 自动驾驶小白说
输出专业自动驾驶算法教程的开发者社区. 🦈 官网: https://www.helloxiaobai.cn
今天看啥  ›  专栏  ›  自动驾驶小白说

【强化学习入门笔记】 2.5 Sarsa和Q-learning

自动驾驶小白说  · 公众号  ·  · 2025-01-06 09:00
    

文章预览

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记. 2.5.1 Sarsa系列 之前介绍的时序差分算法是用来计算给定策略 和其状态 的状态值期望 , 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法. 2.5.1.1 Sarsa 给定策略 , 我们可以用以下算法估计动作值: 这就是Sarsa算法, 它的名字来源于上式的输入:  . 实际上, Sarsa算法是一种随机近似方法, 用于求解使用动作值表达的贝尔曼公式: 2.5.1.2 Expected Sarsa 如果将TD目标改成期望, 就是Expected Sarsa: 其中TD目标项中的期望定义为: Sarsa中只计算一个 带来的动作值 , Expected Sarsa完整的计算了状态值 同样, Expected Sarsa也是计算一个贝尔曼公式: 其中的期望可以展开成: 2.5.1.3 n-step Sarsa 我们回顾一下动作值的定义, 给定状态和动作时, 轨迹 期望: 其中 是指轨迹的discounted return, 定义为: 如果我们额外定义一个上标 , ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览