专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

关于LLM+RL(HF)的片面脉络梳理

深度学习自然语言处理 · 公众号 · · 2024-10-18 23:58

文章预览

知乎：王小惟 Weixun 链接：https://zhuanlan.zhihu.com/p/1686790674 片面的脉络梳理，主要是希望能帮助大家建立一个更全局的视角，因为篇幅有限，仅包含了支撑脉络的工作，同时也没有含括最新的工作，如有遗漏，望各位同仁包涵。总体的思维脑图地址: https://raw.githubusercontent.com/wwxFromTju/wwxFromTju.github.io/refs/heads/master/slide/RL(HF)%2BLLM%E7%9A%84%E7%89%87%E9%9D%A2%E8%84%89%E7%BB%9C.JPG 提纲部分：本文从4个部分来介绍，首先是偏好优化算法，主要分为2两大类：第一类，先建模偏好奖赏模型，再采用RL优化。主要包含PPO算法本身的粗糙介绍，然后进一步考虑到在LLM训练设定中，使用PPO带来复杂优化pipeline对调度与显存的开销相对较大。所以，我对针对LLM优化提出的几种算法改动，主要从降低成本的角度来进行理解与建立联系。接着，我们转向第二类，直接从数据优化偏 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博