专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
今天看啥  ›  专栏  ›  Ai fighting

自动驾驶算法——强化学习(二)

Ai fighting  · 公众号  ·  · 2024-09-02 22:48

文章预览

原文lecture作者: Andreas Geiger 教授、博士 / 自主视觉小组/图宾根大学 /MPI-IS. 接着前一篇文章 自动驾驶算法——强化学习(一) 。 贝尔曼最优方程 贝尔曼最优方程 (BOE) 将 Q∗ 分解如下: 这个递归公式包括两部分: (1)当前奖励:rt (2)后继者的折现最优动作值:γmax a0∈AQ∗(st+1, a0) 我们想要确定Q∗(st, at)。 我们如何解决BOE? (1)BOE是非线性的(因为max-operator)⇒没有闭式解 (2)已经提出了几种迭代方法,最流行的是:Q-Learning 贝尔曼最优方程的证明 下列是最佳动作值函数 Q∗ 的贝尔曼最优方程的证明 :  欢迎加入自动驾驶实战群 贝尔曼最优方程 为什么解决 BOE 很有用? (1) 贪婪策略选择最大化最优动作值函数 Q∗ 或最优状态值函数 V 的动作, 考虑所有可能的未来行为的奖励后果 (2)通过 Q∗ 和 V∗,最优预期长期回报被转化为每个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览