专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【ICML2024】SAPG:分裂与聚合策略梯度

专知  · 公众号  ·  · 2024-07-31 14:00

文章预览

尽管极度样本效率低下,但基于策略的强化学习(即策略梯度)已成为解决决策问题的基本工具。随着基于GPU的模拟技术的最新进展,收集大量用于强化学习训练的数据的能力呈指数级增长。然而,我们展示了当前的强化学习方法(例如PPO)在并行环境的利用方面存在瓶颈,其性能在达到一定点后会饱和。为了解决这个问题,我们提出了一种新的基于策略的强化学习算法,能够通过将大规模环境分块并通过重要性采样将它们融合回去,来有效利用这些环境。我们称这种算法为SAPG。SAPG在各种具有挑战性的环境中表现出显著更高的性能,而在这些环境中,传统的PPO和其他强基线方法未能达到高性能表现。更多信息请访问: https://sapg-rl.github.io。 专知便捷查看 便捷下载 ,请关注 专知 公众号(点击上方 蓝色 专知关注) 后台回复或发消息“ SAPG ” 就可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览