今天看啥  ›  专栏  ›  包包算法笔记

大模型对齐技术,各种什么O:PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

包包算法笔记  · 公众号  ·  · 2024-09-12 10:00

文章预览

知乎 :是念 链接 :https://zhuanlan.zhihu.com/p/710021282 学术分享,侵删 今年做过一段时间的alignment工作,做得有点不开心,各种social的原因,觉得自己的发挥受到了限制,最近又闲下来了,所以看了一些相关的论文,但是对这个方向还是挺感兴趣的,这里来分享一下我对alignment的一些理解。 对齐一般使用的是chat或者instruct模型,而不是base模型,自从OpenAI利用RLHF做人类偏好对齐后,开源社区就涌现了一些列的对齐技术,RL技术中,典型的是PPO(缺点是训练不太稳定,效率低),如果数据集是人类标注的,就是RLHF,如果是gpt,PaLM2等模型标注的,就是RLAIF,后面出现了非RL的技术,典型的就是DPO(直接构造偏好数据集进行优化),然后有一些工作觉得SFT+RLHF不是end2end,索性直接在SFT上加一个alignment的loss,这个典型的就是ORPO,还有一部分工作觉得DPO训练的p ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览