文章预览
本文转载自:CAAI认知系统与信息处理专委会 强化学习( Reinforcement Learning, RL )和模型预测控制( Model Predictive Control, MPC )在许多领域都有广泛的应用,如自动驾驶、机器人控制和能源管理等。它们都是求解最优控制问题策略的方法,但在方法和应用上有一些显著的区别和联系。本文将以清华大学李升波教授编著的强化学习教材《 Reinforcement Learning for Sequential Decision and Optimal Control 》为参考,深入对比分析强化学习( RL )和模型预测控制( MPC )。 从架构上看,强化学习( RL )和模型预测控制( MPC )均可统一为求解马尔可夫决策过程 中 的最优策略,即优化累计奖励或代价函数: subject to or 其中 , 分别表示状态和动作空间, 表示系统转移概率,值函数 为累计奖励或代价函数。 RL 起源于人工智能领域,主要依赖于试错和奖励机制来训练智能体
………………………………