主要分享机器人/自动驾驶智能控制等相关技术。
今天看啥  ›  专栏  ›  机器人规划与控制研究所

自动驾驶算法——强化学习(二)

机器人规划与控制研究所  · 公众号  ·  · 2024-07-26 20:35

文章预览

原文lecture作者: Andreas Geiger 教授、博士 / 自主视觉小组/图宾根大学 /MPI-IS. 接着前一篇文章 自动驾驶算法——强化学习(一) 。 贝尔曼最优方程 贝尔曼最优方程 (BOE) 将 Q∗ 分解如下: 这个递归公式包括两部分: (1)当前奖励:rt (2)后继者的折现最优动作值:γmax a0∈AQ∗(st+1, a0) 我们想要确定Q∗(st, at)。 我们如何解决BOE? (1)BOE是非线性的(因为max-operator)⇒没有闭式解 (2)已经提出了几种迭代方法,最流行的是:Q-Learning 贝尔曼最优方程的证明 下列是最佳动作值函数 Q∗ 的贝尔曼最优方程的证明 : 贝尔曼最优方程 为什么解决 BOE 很有用? (1) 贪婪策略选择最大化最优动作值函数 Q∗ 或最优状态值函数 V 的动作, 考虑所有可能的未来行为的奖励后果 (2)通过 Q∗ 和 V∗,最优预期长期回报被转化为每个状态/状态动作对本地和立即 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览