2024年大模型Alignment偏好优化技术：从PPO, SPO到MCTS-DPO

深度学习与NLP · 公众号 · · 2024-10-07 00:00

文章预览

来源 | Paperweekly 今年做过一段时间的 alignment 工作，做得有点不开心，各种 social 的原因，觉得自己的发挥受到了限制，最近又闲下来了，所以看了一些相关的论文，但是对这个方向还是挺感兴趣的，这里来分享一下我对 alignment 的一些理解。对齐一般使用的是 chat 或者 instruct 模型，而不是 base 模型，自从 OpenAI 利用 RLHF 做人类偏好对齐后，开源社区就涌现了一些列的对齐技术。RL 技术中，典型的是 PPO（缺点是训练不太稳定，效率低），如果数据集是人类标注的就是 RLHF，如果是 GPT，PaLM2 等模型标注的，就是 RLAIF。后面出现了非 RL 的技术，典型的就是 DPO（直接构造偏好数据集进行优化），然后有一些工作觉得 SFT+RLHF 不是 end2end，索性直接在 SFT 上加一个 alignment 的 loss，这个典型的就是 ORPO。还有一部分工作觉得 DPO 训练的 pair-wise（x,y_w,yl）的数据 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

山东省交通运输厅 · “量力而行、有序推进”：济南市地铁三期建设规划正处于前期研究阶段

昨天

山东省交通运输厅 · 突破10万列！新丝路上山东怎样扩大火车连起的“朋友圈”？

2 天前

山东省交通运输厅 · 山东公示省级交通运输与旅游融合发展示范案例名单

3 天前

国家广电智库 · 【报道】BIRTV2024广播电视和网络视听高质量发展论坛在京召开

3 月前

海通研究 · 海通固收 | 信用债基金拉长久期，各机构杠杆率低位——债市情绪指数跟踪

3 月前