文章预览
原文lecture作者: Andreas Geiger 教授、博士 / 自主视觉小组/图宾根大学 /MPI-IS. 接着前一篇文章 自动驾驶算法——强化学习(一) 。 贝尔曼最优方程 贝尔曼最优方程 (BOE) 将 Q∗ 分解如下: 这个递归公式包括两部分: (1)当前奖励:rt (2)后继者的折现最优动作值:γmax a0∈AQ∗(st+1, a0) 我们想要确定Q∗(st, at)。 我们如何解决BOE? (1)BOE是非线性的(因为max-operator)⇒没有闭式解 (2)已经提出了几种迭代方法,最流行的是:Q-Learning 贝尔曼最优方程的证明 下列是最佳动作值函数 Q∗ 的贝尔曼最优方程的证明 : 贝尔曼最优方程 为什么解决 BOE 很有用? (1) 贪婪策略选择最大化最优动作值函数 Q∗ 或最优状态值函数 V 的动作, 考虑所有可能的未来行为的奖励后果 (2)通过 Q∗ 和 V∗,最优预期长期回报被转化为每个状态/状态动作对本地和立即
………………………………