策略函数/价值函数、态函数/势函数

人机与认知实验室 · 公众号 · · 2024-12-03 00:00

文章预览

类似策略函数与价值函数，态函数侧重局部，而势函数侧重全局。 “ 策略函数 ”、“ 价值函数 ”、“ 态函数 ”与“ 势函数 ”是从强化学习或者物理学（例如场论）等领域的术语出发讨论的。根据上述的描述，可以从不同的角度来理解它们的侧重点。下面将尝试分别解释这几个概念，并探讨它们在局部与整体方面的区别。 1. 策略函数和价值函数这两个概念常见于强化学习中，它们描述的是智能体在决策过程中的行为与评估方式。策略函数定义了在某一状态下，智能体应该采取什么样的动作，可以是一个局部决策的描述，因为它聚焦在每个状态下选择的动作。换句话说，策略函数告诉我们在某个特定的状态下，采取哪个动作能最大化长期回报（或期望回报）。形式： π ( s ) = a ，即在状态 s 下选择动作 a 。局部性：它是对单 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博