文章预览
原文:https://zhuanlan.zhihu.com/p/1686790674 通过脉络梳理,主要是希望能帮助大家建立一个更全局的视角,因为篇幅有限,仅包含了支撑脉络的工作,同时也没有含括最新的工作,如有遗漏,望各位同仁包涵。 总体的思维脑图地址: https://raw.githubusercontent.com/wwxFromTju/wwxFromTju.github.io/refs/heads/master/slide/RL(HF)%2BLLM%E7%9A%84%E7%89%87%E9%9D%A2%E8%84%89%E7%BB%9C.JPG 提纲部分: 本文从4个部分来介绍,首先是偏好优化算法,主要分为2两大类: 第一类,先建模偏好奖赏模型,再采用RL优化。 主要包含PPO算法本身的粗糙介绍,然后进一步考虑到在LLM训练设定中,使用PPO带来复杂优化pipeline对调度与显存的开销相对较大。所以,我对针对LLM优化提出的几种算法改动,主要从降低成本的角度来进行理解与建立联系。 接着,我们转向 第二类,直接从数据优化偏好 ,这部分我将其视
………………………………