专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

授人以渔：巧用 o1 学 ppo

关于NLP那些你不知道的事 · 公众号 · · 2024-12-20 07:00

文章预览

授人以渔：巧用 o1 学 ppo 作者：ybq 原文地址：https://zhuanlan.zhihu.com/p/12621744754 这篇文章继续分享利用 OpenRLHF 学习 RLHF 的一些心得。我相信每个同学都已经看过无数篇的 ppo 科普文章，有些同学懂了，但一定也还有同学非常的挣扎，不管别人讲的多通俗依旧脑子一团浆糊，我反正是经历过这个挣扎的阶段。后来我仔细复盘了一下，我觉着问题出现在：代码和理论分离了。作为一个程序员，在读论文的时候，我的思维经常会下意识的被拐偏到“这个地方如何实现？”，当我想不出来这个地方的实现方案的时候，我就无法理解论文中的某个概念。因此，我建议还在挣扎 ppo 的同学，不要先读论文，再读代码，而是论文代码一起读，先看看某个公式在代码中的实现方案，再回过头来看论文里是如何推导出这个公式的。有些说远了，下面我主要介绍如何 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博