文章预览
首先回顾这个系列前几篇文章: 自动驾驶算法——理解强化学习(一) 和 自动驾驶算法——理解强化学习(二) 和 自动驾驶算法——理解强化学习(三) 。 无模型控制 我们之前所 讨论的一切都是为了“引向”这一刻。 无模型控制就是要回答这个问题: “如果你把一个代理放入某个未知的环境中,它如何才能找出正确的做法,即最大化其回报? ”→ 优化价值函数。 解决这个问题的主要方法有三种: 在线策略蒙特卡罗控制 在线策略时间差异学习 离策略学习 在策略学习和离策略学习之间的主要区别在于,在策略学习是“在工作中”学习,而离策略学习则更多地是在遵循他人数据的同时进行学习。 关于政策 → 从 π 中抽样的经验中了解政策 π; 偏离政策 → 从 µ 中抽样的经验中了解政策 π; 何时使用无模型控制? 通常,可以建模为 MDP 的
………………………………