文章预览
3.1.1 值表征方式 如图, 在之前的算法中, 我们通过离散的表格来表达每个状态对应的值. 这种表征方式数据存储量大, 我们可以用一个函数来拟合值函数. 比如使用最简单的线性函数, 是状态参数, 向量 是线性函数的两个参数: 更复杂的, 也可以用更高阶的函数, 可以拟合更复杂的值曲线: 或者是用神经网络作为拟合函数, 它是一个黑盒: 之前介绍的各种迭代方法, 都需要逐步更新状态值; 如果我们用拟合函数代替值列表, 那么我们就应该更新拟合函数的参数, 下图以线性函数为例: 3.1.2 基于值函数估计的TD learning 我们将TD learning中的状态值用值函数来表达, 那么首先我们需要设计最优化问题来求解值函数. 3.1.2.1 目标函数 状态值的真值 估计状态值的值函数 显然这个目标函数的目标是让 尽量逼近 , 如果我们采取均匀分布, 即每个状态都有均匀的权重, 那么上
………………………………