主要分享机器人/自动驾驶智能控制等相关技术。
今天看啥  ›  专栏  ›  机器人规划与控制研究所

自动驾驶算法——理解强化学习(二)

机器人规划与控制研究所  · 公众号  ·  · 2025-03-12 11:55
    

文章预览

接着上篇文章 自动驾驶算法——理解强化学习(一) 。 动态规划 动态: 处理问题的顺序 + 时间成分。 编程: 使用问题,即策略 动态规划就是 找到解决连续复杂问题的最佳方案 。这通常是通过以下方式完成的: 将问题分解为子问题 结合解决方案来解决问题 动态规划一般需要具备2个性质: 最佳子结构→你可以将某些 RL 问题分解为≥2 个部分,然后解决它们,最后将它们组合起来找到最佳问题,从而解决该问题。 重叠子问题→子问题可以出现多次,通过将问题分解为子问题,我们可以获得一些好处。 MDP 满足这两个属性 → 我们上面定义的贝尔曼方程为我们提供了分解问题的方法,例如“我们如何将最佳奖励函数分解为 2 个子部分?”即向左迈出一步,然后决定下一步要采取什么步骤。 动态规划假设完全了解 MDP,并用于 MDP 中的规划。主要有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览