专栏名称: Ai fighting

本公众号主要分享自动驾驶感知实战，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

自动驾驶算法——强化学习（二）

Ai fighting · 公众号 · · 2024-09-02 22:48

文章预览

原文lecture作者： Andreas Geiger 教授、博士 / 自主视觉小组/图宾根大学 /MPI-IS. 接着前一篇文章自动驾驶算法——强化学习（一）。贝尔曼最优方程贝尔曼最优方程 (BOE) 将 Q∗ 分解如下：这个递归公式包括两部分：（1）当前奖励：rt （2）后继者的折现最优动作值：γmax a0∈AQ∗(st+1, a0) 我们想要确定Q∗(st, at)。我们如何解决BOE？（1）BOE是非线性的（因为max-operator）⇒没有闭式解（2）已经提出了几种迭代方法，最流行的是：Q-Learning 贝尔曼最优方程的证明下列是最佳动作值函数 Q∗ 的贝尔曼最优方程的证明：欢迎加入自动驾驶实战群贝尔曼最优方程为什么解决 BOE 很有用？（1）贪婪策略选择最大化最优动作值函数 Q∗ 或最优状态值函数 V 的动作，考虑所有可能的未来行为的奖励后果（2）通过 Q∗ 和 V∗，最优预期长期回报被转化为每个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博