专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

【NLP】万字长文梳理LLM+RL(HF)的脉络

机器学习初学者  · 公众号  ·  · 2024-10-23 11:00

文章预览

作者:王小惟 Weixun 原文:https://zhuanlan.zhihu.com/p/1686790674 片面的脉络梳理,主要是希望能帮助大家建立一个更全局的视角,因为篇幅有限,仅包含了支撑脉络的工作,同时也没有含括最新的工作,如有遗漏,望各位同仁包涵。 总体的思维脑图地址(可能需要翻墙): raw.githubusercontent.com  [1] 提纲部分: 本文从4个部分来介绍,首先是偏好优化算法,主要分为2两大类: • 第一类,先建模偏好奖赏模型,再采用RL优化。主要包含PPO算法本身的粗糙介绍,然后进一步考虑到在LLM训练设定中,使用PPO带来复杂优化pipeline对调度与显存的开销相对较大。所以,我对针对LLM优化提出的几种算法改动,主要从降低成本的角度来进行理解与建立联系。 • 接着,我们转向第二类,直接从数据优化偏好,这部分我将其视为offline RL联合Reward Model优化的视角。从DPO出发, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览