今天看啥  ›  专栏  ›  大猿搬砖简记

人人都能看懂的RL-PPO理论知识

大猿搬砖简记  · 公众号  ·  · 2024-11-16 22:17
    

文章预览

在去年的这个时候,我以deepspeed-chat的代码为例, 解读了rlhf运作的流程 。当时写这篇文章的目的,主要是想让读者在没有强化学习知识的情况下,能从直觉上快速理解这份代码,以便上手训练和修改。 由于这篇文章侧重“直觉”上的解读,因此有很多描述不严谨的地方。所以去年我就想接着敲一篇比较严谨的介绍强化学习理论的文章(策略梯度->actor-critic -> PPO),但是由于敲公式真得太累了,所以一直delay到今天。 所以今天这篇文章就来做这件事,我的主要参考资料是Sutton的这本强化学习导论(http://incompleteideas.net/book/the-book-2nd.html)。在现有的很多教材中,一般会按照这本导论的介绍方式,从MDP(马尔可夫决策过程)和价值函数定义介绍起,然后按照value-based,polciy-based,actor-critic的顺序介绍。 但是由于本文的重点是actor-critic,所以我在写文章时 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览