大模型对齐技术总结：PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

吃果冻不吐果冻皮 · 公众号 · · 2024-09-16 14:55

文章预览

原文：https://zhuanlan.zhihu.com/p/710021282 今年做过一段时间的alignment工作，做得有点不开心，各种social的原因，觉得自己的发挥受到了限制，最近又闲下来了，所以看了一些相关的论文，但是对这个方向还是挺感兴趣的，这里来分享一下我对alignment的一些理解。对齐一般使用的是chat或者instruct模型，而不是base模型，自从OpenAI利用RLHF做人类偏好对齐后，开源社区就涌现了一些列的对齐技术，RL技术中，典型的是PPO（缺点是训练不太稳定，效率低），如果数据集是人类标注的，就是RLHF，如果是gpt，PaLM2等模型标注的，就是RLAIF，后面出现了非RL的技术，典型的就是DPO（直接构造偏好数据集进行优化），然后有一些工作觉得SFT+RLHF不是end2end，索性直接在SFT上加一个alignment的loss，这个典型的就是ORPO，还有一部分工作觉得DPO训练的pair-wise（x,y_w,yl）的数据集获取 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博