专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DPO，RM，RLHF 傻傻分不清楚

深度学习自然语言处理 · 公众号 · · 2024-09-10 17:27

文章预览

知乎：曹宇链接：https://zhuanlan.zhihu.com/p/718913850 编辑：AI椰青 | 深度学习自然语言处理公众号纯学术分享，侵删 DPO 的论文引用最近已经破千了，成了斯坦福的Chelsea Finn组的机器人超猛PhD学生R.M. Rafailov的第一被引论文。又由于第二梯队的大模型频繁提及DPO的变种，DPO+RM的用法未来估计机器人界的思潮对于LLM的正向影响不会削弱。按照我平时使用的体验，我们可以将当前的主要头部三强划分为第一梯队，头部开源三强划分成为第二梯队，再加上我一直比较关心的应用侧玩家Apple: 可以发现几点：超头部玩家的对齐策略清一色的还是 RL 类方法。开源头部玩家采用 DPO 的较多。不论是什么 PO，基本都是采用了和 RM 结合的 xPO + RM 的做法，没有纯原始 DPO 的玩法。大多数对齐玩家都使用了多阶段对齐的策略。这个其实就让很多小伙伴很疑惑了，明明 DP ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

青眼号外 · 2024年，美妆在海南免税渠道少了近65亿元

6 小时前

青眼号外 · 2024年，美妆在海南免税渠道少了近65亿元

6 小时前

红秀GRAZIA · 新年穿“车厘子”色，包红的！

17 小时前

红秀GRAZIA · 新年穿“车厘子”色，包红的！

17 小时前

FM1036福建新闻广播 · 微信最新公告：集体下架处置

昨天

青眼号外 · 一年近百起，全球美妆高管迎巨变！

2 天前

云修行 · 鬼仙为何也称为仙？阴中超脱，不入轮回！

6 月前

科技美学 · Vision Pro首销遇冷 | 体验的多，买的少，好事还是坏事？

6 月前

小胖看房二手房 · 粉丝房源无中介！宝山高境三花现代城(一期丹桂苑)60.3平1房365万

2 月前

清华大学小研在线 · 2024年清华大学研究生“一二·九”革命歌曲演唱会，就在明天!

1 月前