文章预览
类似策略函数与价值函数,态函数侧重局部,而势函数侧重全局。 “ 策略函数 ”、“ 价值函数 ”、“ 态函数 ”与“ 势函数 ”是从 强化学习 或者 物理学 (例如场论)等领域的术语出发讨论的。根据上述的描述,可以从不同的角度来理解它们的侧重点。下面将尝试分别解释这几个概念,并探讨它们在局部与整体方面的区别。 1. 策略函数 和 价值函数 这两个概念常见于 强化学习 中,它们描述的是智能体在决策过程中的行为与评估方式。 策略函数 定义了在某一状态下,智能体应该采取什么样的动作,可以是一个 局部决策 的描述,因为它聚焦在 每个状态下 选择的动作。换句话说,策略函数告诉我们在某个特定的状态下,采取哪个动作能最大化长期回报(或期望回报)。 形式 : π ( s ) = a ,即在状态 s 下选择动作 a 。 局部性 :它是对单
………………………………