整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

授人以渔:巧用 o1 学 ppo

关于NLP那些你不知道的事  · 公众号  ·  · 2024-12-20 07:00
    

文章预览

授人以渔:巧用 o1 学 ppo 作者:ybq 原文地址:https://zhuanlan.zhihu.com/p/12621744754 这篇文章继续分享利用 OpenRLHF 学习 RLHF 的一些心得。我相信每个同学都已经看过无数篇的 ppo 科普文章,有些同学懂了,但一定也还有同学非常的挣扎,不管别人讲的多通俗依旧脑子一团浆糊,我反正是经历过这个挣扎的阶段。 后来我仔细复盘了一下,我觉着问题出现在: 代码和理论分离了 。作为一个程序员,在读论文的时候,我的思维经常会下意识的被拐偏到“这个地方如何实现?”,当我想不出来这个地方的实现方案的时候,我就无法理解论文中的某个概念。因此,我建议还在挣扎 ppo 的同学, 不要先读论文,再读代码,而是论文代码一起读 ,先看看某个公式在代码中的实现方案,再回过头来看论文里是如何推导出这个公式的。 有些说远了,下面我主要介绍如何 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览