专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

大模型Post-Training总结

极市平台 · 公众号 · · 2025-01-10 22:00

文章预览

↑ 点击蓝字关注极市平台作者丨hadiii 来源丨https://zhuanlan.zhihu.com/p/12862210431 编辑丨极市平台极市导读本文汇总Llama3.1，DeepSeek-V3，TÜLU 3，Qwen2.5报告的后训练部分，摘录其中核心的细节。大多涉及到数据，SFT，RL（各种RM训练，DPO，GRPO，RLVR等等）。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿 1 Llama3.1 paper: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/ Illustration of the overall post-training approach for Llama 3. 总的来说，Llama 3后训练方法是迭代式的，总共做了6轮。每轮的核心操作是：Reward Modeling，Rejection Sampling，SFT，DPO。数据构成主要是SFT data和Preference data。而Reward Modeling和DPO，对Preference data又有不同的使用方式。 SFT data：每轮Rejection Sampling的结果 + 针对特定能力的合成数据 + 少量的人工标注数据。 Preference data：每一轮训练都构建一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

帅真商业视界 · 刘强东疯狂进击外卖，背后算盘打得很精

3 天前

山西电力交易中心 · 山西电力交易中心每日市场信息（2024.5.25）

11 月前

ioncology · ASCO大咖访谈丨吴一龙教授参会归来话ASCO，分享令人印象深刻的重要研究

10 月前

光伏资讯 · 阳光储能

10 月前

新加坡眼SgEye · 新加坡卫生部长王乙康：终身护保计划每月赔付额增649新币

9 月前

迪拜人 · 加入阿联酋首家由华人创办的持证医美诊所，服务卓越之美！Esteem至尊医美招聘啦！

8 月前