注册登录

专栏名称: NLP工作站

AIGC前沿知识分享&落地经验总结

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

李楠或kkk · Dry Studio Gaming 的 ... · 昨天

山西市场监管 · 我省七部门印发方案推进企业数据填报“一件事”改革 · 2 天前

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安 ... · 3 天前

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安 ... · 3 天前

今天看啥 › 专栏 › NLP工作站

DPO，RM，RLHF 傻傻分不清楚

NLP工作站 · 公众号 · · 2024-09-11 08:08

文章预览

今天给大家带来一篇曹宇兄的文章，带你进一步理解什么是大语言模型的对齐。知乎：https://zhuanlan.zhihu.com/p/718913850 DPO 的论文引用最近已经破千了，成了斯坦福的Chelsea Finn组的机器人超猛PhD学生R.M. Rafailov的第一被引论文。又由于第二梯队的大模型频繁提及DPO的变种，DPO+RM的用法未来估计机器人界的思潮对于LLM的正向影响不会削弱。按照我平时使用的体验，我们可以将当前的主要头部三强划分为第一梯队，头部开源三强划分成为第二梯队，再加上我一直比较关心的应用侧玩家Apple。可以发现几点：超头部玩家的对齐策略清一色的还是RL类方法开源头部玩家采用DPO的较多不论是什么PO，基本都是采用了和RM结合的xPO + RM的做法，没有纯原始DPO的玩法大多数对齐玩家都使用了多阶段对齐的策略这个其实就让很多小伙伴很疑惑了，明明DPO的宣言是Your l ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

李楠或kkk · Dry Studio Gaming 的 ice ring 63 -20250208204201

昨天

山西市场监管 · 我省七部门印发方案推进企业数据填报“一件事”改革

2 天前

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安全播出保障工作

3 天前

广西广播电视局 · 自治区广电局圆满完成2025年春节广播电视安全播出保障工作

3 天前

PoIiticaI理论志 · 青年为何参与政治？来自英国的家庭研究 | Social Forces

6 月前

中国能源报 · 年发5.17万度绿电！协鑫能科“助攻”蔚来苏州首座光储充换一体站

1 月前

网言网事V · 格力通报：造谣抹黑董明珠，5人被罚

2 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号