主要介绍深度学习、强化学习、深度强化学习环境、算法原理与实现、前沿技术与论文、开源项目、场景应用等与DRL相关的知识
今天看啥  ›  专栏  ›  深度强化学习实验室

【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”

深度强化学习实验室  · 公众号  ·  · 2024-08-30 11:53

文章预览

本文转载自:CAAI认知系统与信息处理专委会 强化学习( Reinforcement Learning, RL )和模型预测控制( Model Predictive Control, MPC )在许多领域都有广泛的应用,如自动驾驶、机器人控制和能源管理等。它们都是求解最优控制问题策略的方法,但在方法和应用上有一些显著的区别和联系。本文将以清华大学李升波教授编著的强化学习教材《 Reinforcement Learning for Sequential Decision and Optimal Control 》为参考,深入对比分析强化学习( RL )和模型预测控制( MPC )。 从架构上看,强化学习( RL )和模型预测控制( MPC )均可统一为求解马尔可夫决策过程 中 的最优策略,即优化累计奖励或代价函数: subject to or 其中 , 分别表示状态和动作空间, 表示系统转移概率,值函数 为累计奖励或代价函数。 RL 起源于人工智能领域,主要依赖于试错和奖励机制来训练智能体 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览