专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

2024年大模型Alignment偏好优化技术：从PPO, SPO到MCTS-DPO

PaperWeekly · 公众号 · 科研 · 2024-10-05 23:06

文章预览

©PaperWeekly 原创 · 作者 | 吴高升研究方向 | LLM、对比学习等今年做过一段时间的 alignment 工作，做得有点不开心，各种 social 的原因，觉得自己的发挥受到了限制，最近又闲下来了，所以看了一些相关的论文，但是对这个方向还是挺感兴趣的，这里来分享一下我对 alignment 的一些理解。对齐一般使用的是 chat 或者 instruct 模型，而不是 base 模型，自从 OpenAI 利用 RLHF 做人类偏好对齐后，开源社区就涌现了一些列的对齐技术。RL 技术中，典型的是 PPO（缺点是训练不太稳定，效率低），如果数据集是人类标注的就是 RLHF，如果是 GPT，PaLM2 等模型标注的，就是 RLAIF。后面出现了非 RL 的技术，典型的就是 DPO（直接构造偏好数据集进行优化），然后有一些工作觉得 SFT+RLHF 不是 end2end，索性直接在 SFT 上加一个 alignment 的 loss，这个典型的就是 ORPO。还有一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

募格学术 · 中国墓地招聘！月薪1.9w！早8晚5、不限专业，而且......

4 小时前

PaperWeekly · 博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

2 天前

募格学术 · 人类首次！西湖大学，发Science！

2 天前

科研大匠 · Cell子刊(IF：14)：曹雪涛团队再发重量级文章

4 天前

募格学术 · 重磅：高级科学润色服务正式上线

5 天前

求职汇 · 平安点创租赁2025届校园招聘正式开启

3 月前

连享会 · 工具变量：教育回报IV探讨

3 月前

电影铺子 · 收视第一，评分一路飙升，全网催更的新剧来了！

1 周前