人人都能看懂的RL-PPO理论知识

大猿搬砖简记 · 公众号 · · 2024-11-16 22:17

文章预览

在去年的这个时候，我以deepspeed-chat的代码为例，解读了rlhf运作的流程。当时写这篇文章的目的，主要是想让读者在没有强化学习知识的情况下，能从直觉上快速理解这份代码，以便上手训练和修改。由于这篇文章侧重“直觉”上的解读，因此有很多描述不严谨的地方。所以去年我就想接着敲一篇比较严谨的介绍强化学习理论的文章（策略梯度->actor-critic -> PPO），但是由于敲公式真得太累了，所以一直delay到今天。所以今天这篇文章就来做这件事，我的主要参考资料是Sutton的这本强化学习导论(http://incompleteideas.net/book/the-book-2nd.html)。在现有的很多教材中，一般会按照这本导论的介绍方式，从MDP（马尔可夫决策过程）和价值函数定义介绍起，然后按照value-based，polciy-based，actor-critic的顺序介绍。但是由于本文的重点是actor-critic，所以我在写文章时 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

生物学霸 · 最新明确，这类大学生不要求撰写毕业论文

13 小时前

BioArt · Sci Adv｜罗卓娟、林承棋团队揭示基因转录暂停释放新机制

21 小时前

生信人 · 疾病最近研究的标杆产品，冲击二区神器

2 天前

生信人 · 换个细胞，免疫微环境+预后依旧王炸

2 天前

生信宝典 · PNAS|中医方剂的历史演化-基于组合创新的视角

3 天前

云南新闻广播 · 节目预告丨6月13日中午12点怒江州泸水市上线《金色热线•媒体问政》（第三季），欢迎参与节目互动！

8 月前

人力资源研究 · 打破常规！华为薪酬体系给HR的新思路

6 月前

36氪Pro · 大润发到底还值多少钱？

1 月前