注册登录

专栏名称: 包包算法笔记

数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

为你读诗 · 岁末，终究不敢问，你过得好吗？ · 2 天前

岳西网 · 岳西籍新华社记者吴黎明：惜字亭随想 · 3 天前

坦克的书摊儿 · 坦克笔下那些意难平的女角色，她差一点就成功…… · 4 天前

今天看啥 › 专栏 › 包包算法笔记

关于post-training和一些思考

包包算法笔记 · 公众号 · · 2024-08-24 10:00

文章预览

Author: [yanwushen] Link: [https://zhuanlan.zhihu.com/p/710936230] 最近有趋势是要扩大post-training规模，本文讨论的就是Llama3.1等开源大模型的技术报告里的post-training部分，已经有很多文章提到其中的细节要点了，这里更着重于比较大的层面。 DPO vs PPO 整个93页报告当然是很有份量的，很大程度的推进了领域内的发展，但令人失望的是，没有像在 Llama 2 中使用 PPO 那样对 SFT->DPO 进行彻底的分析。另外，本来以为会有很多关于 DPO 与 PPO 怎么选择的内容，但文章里面只说了“我们还探索了 PPO 等在线策略算法，但发现 DPO 对于大规模模型所需的计算更少，并且性能更好，尤其是在遵循 IFEval 等基准测试的指令方面”。虽然学界已经有很多paper证实了PPO有更高的上限[1][2]和表现，但是几乎没有开源的大模型有具体实现PPO的细节，像QWEN，Llama用的是online DPO，而deepseek则是魔 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

为你读诗 · 岁末，终究不敢问，你过得好吗？

2 天前

岳西网 · 岳西籍新华社记者吴黎明：惜字亭随想

3 天前

坦克的书摊儿 · 坦克笔下那些意难平的女角色，她差一点就成功……

4 天前

自贡网 · 荣县花茶，100强！

8 月前

央视财经 · “从未拒绝”！普京最新表态→

6 月前

小白测评 · 【视频】3000档手机怎么选？一加/红米/真我/iQOO横评

5 月前

中国能源报 · 匈总理：乌必须保证

4 天前

光明日报 · 机场“16元包吃住”，值得点赞

4 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号