文章预览
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记. 2.5.1 Sarsa系列 之前介绍的时序差分算法是用来计算给定策略 和其状态 的状态值期望 , 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法. 2.5.1.1 Sarsa 给定策略 , 我们可以用以下算法估计动作值: 这就是Sarsa算法, 它的名字来源于上式的输入: . 实际上, Sarsa算法是一种随机近似方法, 用于求解使用动作值表达的贝尔曼公式: 2.5.1.2 Expected Sarsa 如果将TD目标改成期望, 就是Expected Sarsa: 其中TD目标项中的期望定义为: Sarsa中只计算一个 带来的动作值 , Expected Sarsa完整的计算了状态值 同样, Expected Sarsa也是计算一个贝尔曼公式: 其中的期望可以展开成: 2.5.1.3 n-step Sarsa 我们回顾一下动作值的定义, 给定状态和动作时, 轨迹 期望: 其中 是指轨迹的discounted return, 定义为: 如果我们额外定义一个上标 ,
………………………………