今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

深度解读大规模深度强化学习的算法优化:Policy Gradient、PPO及PPG

吃果冻不吐果冻皮  · 公众号  ·  · 2025-03-17 11:45
    

文章预览

原文: https://zhuanlan.zhihu.com/p/342150033     导读 对于大规模深度强化学习Large Scale Deep Reinforcement Learning,Model free的Policy Gradient方法一直是主流,特别是PPO。本文结合多篇最新的分析性paper及开源代码从Policy Gradient谈起,重点分析PPO的算法细节,并进一步讨论大规模深度强化学习的算法优化。 阅读对象:对DRL有研究的同学 ;本文 @吴波  亦有贡献 Policy Gradient方法 Policy Gradient是DRL中一大类方法,核心思想就是直接优化策略网络Policy Network:  来提升Reward的获取。 怎么直接优化policy呢? 采样很多样本,判断样本的好坏,如果样本好,就将对应的动作action概率增大,如果样本差,就将对应的动作action概率减少。 因此,更新Policy的Loss为   ,其中f(s,a)是对s下动作a的评估。  就是log likelihood。 那么,怎么来计算f(s,a)呢?有很多种方法: 最好的做法是使用Adv ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览