今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

大模型对齐技术总结:PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-16 14:55

文章预览

原文:https://zhuanlan.zhihu.com/p/710021282 今年做过一段时间的alignment工作,做得有点不开心,各种social的原因,觉得自己的发挥受到了限制,最近又闲下来了,所以看了一些相关的论文,但是对这个方向还是挺感兴趣的,这里来分享一下我对alignment的一些理解。 对齐一般使用的是chat或者instruct模型,而不是base模型,自从OpenAI利用RLHF做人类偏好对齐后,开源社区就涌现了一些列的对齐技术,RL技术中,典型的是PPO(缺点是训练不太稳定,效率低),如果数据集是人类标注的,就是RLHF,如果是gpt,PaLM2等模型标注的,就是RLAIF,后面出现了非RL的技术,典型的就是DPO(直接构造偏好数据集进行优化),然后有一些工作觉得SFT+RLHF不是end2end,索性直接在SFT上加一个alignment的loss,这个典型的就是ORPO,还有一部分工作觉得DPO训练的pair-wise(x,y_w,yl)的数据集获取 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览