自动驾驶算法——理解强化学习（四）

机器人规划与控制研究所 · 公众号 · · 2024-12-16 06:00

文章预览

首先回顾这个系列前几篇文章：自动驾驶算法——理解强化学习（一）和自动驾驶算法——理解强化学习（二）和自动驾驶算法——理解强化学习（三）。无模型控制我们之前所讨论的一切都是为了“引向”这一刻。无模型控制就是要回答这个问题： “如果你把一个代理放入某个未知的环境中，它如何才能找出正确的做法，即最大化其回报？ ”→ 优化价值函数。解决这个问题的主要方法有三种：在线策略蒙特卡罗控制在线策略时间差异学习离策略学习在策略学习和离策略学习之间的主要区别在于，在策略学习是“在工作中”学习，而离策略学习则更多地是在遵循他人数据的同时进行学习。关于政策 → 从 π 中抽样的经验中了解政策 π；偏离政策 → 从 µ 中抽样的经验中了解政策 π；何时使用无模型控制？通常，可以建模为 MDP 的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 桌面版ChatGPT登台演讲，能视频通话还会实时读屏，GPT-4o最新demo再次惊艳：“能力还是被低估了”

10 月前

丁香园肾内时间 · 肝素、枸橼酸钠、阿加曲班…… 血液净化常用抗凝剂如何选？

9 月前

东方国际微讯 · 东方国际2025届校园招聘正式启动！

6 月前

云南红河发布 · 快乐出发！荧光健步走点亮蒙自活力之夜~

6 月前

广东电力交易中心 · 通知 |关于广东电力市场2024年11月交易有关安排的通知

5 月前