文章预览
知乎 :是念 链接 :https://zhuanlan.zhihu.com/p/710021282 学术分享,侵删 今年做过一段时间的alignment工作,做得有点不开心,各种social的原因,觉得自己的发挥受到了限制,最近又闲下来了,所以看了一些相关的论文,但是对这个方向还是挺感兴趣的,这里来分享一下我对alignment的一些理解。 对齐一般使用的是chat或者instruct模型,而不是base模型,自从OpenAI利用RLHF做人类偏好对齐后,开源社区就涌现了一些列的对齐技术,RL技术中,典型的是PPO(缺点是训练不太稳定,效率低),如果数据集是人类标注的,就是RLHF,如果是gpt,PaLM2等模型标注的,就是RLAIF,后面出现了非RL的技术,典型的就是DPO(直接构造偏好数据集进行优化),然后有一些工作觉得SFT+RLHF不是end2end,索性直接在SFT上加一个alignment的loss,这个典型的就是ORPO,还有一部分工作觉得DPO训练的p
………………………………