文章预览
来源 | Paperweekly 今年做过一段时间的 alignment 工作,做得有点不开心,各种 social 的原因,觉得自己的发挥受到了限制,最近又闲下来了,所以看了一些相关的论文,但是对这个方向还是挺感兴趣的,这里来分享一下我对 alignment 的一些理解。 对齐一般使用的是 chat 或者 instruct 模型,而不是 base 模型,自从 OpenAI 利用 RLHF 做人类偏好对齐后,开源社区就涌现了一些列的对齐技术。RL 技术中,典型的是 PPO(缺点是训练不太稳定,效率低),如果数据集是人类标注的就是 RLHF,如果是 GPT,PaLM2 等模型标注的,就是 RLAIF。 后面出现了非 RL 的技术,典型的就是 DPO(直接构造偏好数据集进行优化),然后有一些工作觉得 SFT+RLHF 不是 end2end,索性直接在 SFT 上加一个 alignment 的 loss,这个典型的就是 ORPO。 还有一部分工作觉得 DPO 训练的 pair-wise(x,y_w,yl)的数据
………………………………