专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

人人都能看懂的RL-PPO理论知识

极市平台  · 公众号  ·  · 2024-11-20 22:00

文章预览

↑ 点击 蓝字  关注极市平台 作者丨猛猿 来源丨大猿搬砖简记 编辑丨极市平台 极市导读   关于强化学习中PPO算法的全面解读,从基础概念到算法细节,旨在帮助读者深入理解PPO的理论基础和实现机制。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 在去年的这个时候,我以deepspeed-chat的代码为例,解读了rlhf运作的流程。当时写这篇文章的目的,主要是想让读者在没有强化学习知识的情况下,能从直觉上快速理解这份代码,以便上手训练和修改。 由于这篇文章侧重“直觉”上的解读,因此有很多描述不严谨的地方。所以去年我就想接着敲一篇比较严谨的介绍强化学习理论的文章(策略梯度->actor-critic -> PPO),但是由于敲公式真得太累了,所以一直delay到今天。 所以今天这篇文章就来做这件事,我的主要参考资料是Sutton的这本强化学习导论( ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览