主要分享机器人/自动驾驶智能控制等相关技术。
今天看啥  ›  专栏  ›  机器人规划与控制研究所

自动驾驶算法——理解强化学习(四)

机器人规划与控制研究所  · 公众号  ·  · 2024-12-16 06:00
    

文章预览

首先回顾这个系列前几篇文章: 自动驾驶算法——理解强化学习(一)  和  自动驾驶算法——理解强化学习(二) 和 自动驾驶算法——理解强化学习(三) 。 无模型控制 我们之前所 讨论的一切都是为了“引向”这一刻。 无模型控制就是要回答这个问题: “如果你把一个代理放入某个未知的环境中,它如何才能找出正确的做法,即最大化其回报? ”→ 优化价值函数。 解决这个问题的主要方法有三种: 在线策略蒙特卡罗控制 在线策略时间差异学习 离策略学习 在策略学习和离策略学习之间的主要区别在于,在策略学习是“在工作中”学习,而离策略学习则更多地是在遵循他人数据的同时进行学习。 关于政策 → 从 π 中抽样的经验中了解政策 π; 偏离政策 → 从 µ 中抽样的经验中了解政策 π; 何时使用无模型控制? 通常,可以建模为 MDP 的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览