文章预览
授人以渔:巧用 o1 学 ppo 作者:ybq 原文地址:https://zhuanlan.zhihu.com/p/12621744754 这篇文章继续分享利用 OpenRLHF 学习 RLHF 的一些心得。我相信每个同学都已经看过无数篇的 ppo 科普文章,有些同学懂了,但一定也还有同学非常的挣扎,不管别人讲的多通俗依旧脑子一团浆糊,我反正是经历过这个挣扎的阶段。 后来我仔细复盘了一下,我觉着问题出现在: 代码和理论分离了 。作为一个程序员,在读论文的时候,我的思维经常会下意识的被拐偏到“这个地方如何实现?”,当我想不出来这个地方的实现方案的时候,我就无法理解论文中的某个概念。因此,我建议还在挣扎 ppo 的同学, 不要先读论文,再读代码,而是论文代码一起读 ,先看看某个公式在代码中的实现方案,再回过头来看论文里是如何推导出这个公式的。 有些说远了,下面我主要介绍如何
………………………………