专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

三张图速通 DeepSeek-R1 论文和技术原理

AINLP  · 公众号  ·  · 2025-02-12 20:21
    

文章预览

知乎 :木尧(已授权) 链接 :https://zhuanlan.zhihu.com/p/20538667476 总览 最近在研究和复现 DeepSeek-R1(671B 参数 MoE,激活 37B 参数,128K 上下文的深度思考模型)论文,于是画了三张图来把整个论文核心内容总结一下,欢迎大家讨论!核心是三组模型: 一是 纯强化学习 (后文简称 RL)方案训的 DeepSeek-R1-Zero 验证技术方案可行,Reasoning 能力提升; 二是 80w 有监督微调 (后文简称 SFT)+ 类似刚才 RL 方案训练的 DeepSeek-R1 ,能力对标 OpenAI o1; 三是直接拿刚才 80w 对 Qwen/Llama 系列模型 SFT 蒸馏 出来的小模型,能力对标 OpenAI o1-mini。 先上图! 图一:DeepSeek-R1-Zero 训练 图二:DeepSeek-R1 训练 图三:DeepSeek-R1-Distill 系列小模型蒸馏 分别展开三张图 图一:DeepSeek-R1-Zero 训练 图一:DeepSeek-R1-Zero 训练 先说意义 :DeepSeek-R1-Zero 首次通过纯 RL 而不用任何 SFT 激发 LLM 的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览