专栏名称: 人机与认知实验室
北京邮电大学人机交互与认知工程实验室 联系方式:twhlw@163.com
目录
相关文章推荐
今天看啥  ›  专栏  ›  人机与认知实验室

策略函数/价值函数、态函数/势函数

人机与认知实验室  · 公众号  ·  · 2024-12-03 00:00
    

文章预览

类似策略函数与价值函数,态函数侧重局部,而势函数侧重全局。 “ 策略函数 ”、“ 价值函数 ”、“ 态函数 ”与“ 势函数 ”是从 强化学习 或者 物理学 (例如场论)等领域的术语出发讨论的。根据上述的描述,可以从不同的角度来理解它们的侧重点。下面将尝试分别解释这几个概念,并探讨它们在局部与整体方面的区别。 1.   策略函数 和 价值函数 这两个概念常见于 强化学习 中,它们描述的是智能体在决策过程中的行为与评估方式。 策略函数 定义了在某一状态下,智能体应该采取什么样的动作,可以是一个 局部决策 的描述,因为它聚焦在 每个状态下 选择的动作。换句话说,策略函数告诉我们在某个特定的状态下,采取哪个动作能最大化长期回报(或期望回报)。 形式 : π ( s ) = a ,即在状态   s 下选择动作   a 。 局部性 :它是对单 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览