文章预览
知乎 :木尧(已授权) 链接 :https://zhuanlan.zhihu.com/p/20538667476 总览 最近在研究和复现 DeepSeek-R1(671B 参数 MoE,激活 37B 参数,128K 上下文的深度思考模型)论文,于是画了三张图来把整个论文核心内容总结一下,欢迎大家讨论!核心是三组模型: 一是 纯强化学习 (后文简称 RL)方案训的 DeepSeek-R1-Zero 验证技术方案可行,Reasoning 能力提升; 二是 80w 有监督微调 (后文简称 SFT)+ 类似刚才 RL 方案训练的 DeepSeek-R1 ,能力对标 OpenAI o1; 三是直接拿刚才 80w 对 Qwen/Llama 系列模型 SFT 蒸馏 出来的小模型,能力对标 OpenAI o1-mini。 先上图! 图一:DeepSeek-R1-Zero 训练 图二:DeepSeek-R1 训练 图三:DeepSeek-R1-Distill 系列小模型蒸馏 分别展开三张图 图一:DeepSeek-R1-Zero 训练 图一:DeepSeek-R1-Zero 训练 先说意义 :DeepSeek-R1-Zero 首次通过纯 RL 而不用任何 SFT 激发 LLM 的
………………………………