专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

深度学习自然语言处理 · 公众号 · · 2024-09-09 20:09

文章预览

知乎：是念链接：https://zhuanlan.zhihu.com/p/710021282 学术分享，侵删今年做过一段时间的alignment工作，做得有点不开心，各种social的原因，觉得自己的发挥受到了限制，最近又闲下来了，所以看了一些相关的论文，但是对这个方向还是挺感兴趣的，这里来分享一下我对alignment的一些理解。对齐一般使用的是chat或者instruct模型，而不是base模型，自从OpenAI利用RLHF做人类偏好对齐后，开源社区就涌现了一些列的对齐技术，RL技术中，典型的是PPO（缺点是训练不太稳定，效率低），如果数据集是人类标注的，就是RLHF，如果是gpt，PaLM2等模型标注的，就是RLAIF，后面出现了非RL的技术，典型的就是DPO（直接构造偏好数据集进行优化），然后有一些工作觉得SFT+RLHF不是end2end，索性直接在SFT上加一个alignment的loss，这个典型的就是ORPO，还有一部分工作觉得DPO训练的p ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

创伙伴 · 第一款免费红包封面：蛇年行大运！

昨天

创伙伴 · 第二款免费红包封面：蛇年大吉！

3 天前

IT桔子 · 创投人又坚挺了一年，这一年有哪些挑战和心酸跟我说说

4 天前

经纬创投 · 过年吃不胖的秘诀，现在看还来得及 |【经纬低调分享】

4 天前

IT桔子 · 涨价30%，但是都约满了！商家表示太火爆，有人10多天能赚近万元

5 天前

狮大拿策略 · 退潮中，观察穿越票

5 月前

百车全说 · 野生”碰撞测试，还能不能看？

5 月前

律新V品 · 多位行业大咖精彩分享！《律界婚姻家事品牌创新之道》新书发布会9月25日邀您来（附参会指引）

4 月前

七厘居 · 中国股市：有望成为跨年龙头的十大潜力金花，值得收藏关注

1 月前

七厘居 · 中国股市：有望成为跨年龙头的十大潜力金花，值得收藏关注

1 月前