一文搞懂DeepSeek - 强化学习和蒸馏

架构师带你玩转AI · 公众号 · · 2025-02-01 23:43

文章预览

DeepSeek-R1在Introduction部分提到，R1通过结合冷启动数据、多阶段训练管道和纯强化学习，显著提升了大型语言模型的推理能力，实现了与OpenAI的o1系列模型相当的性能，并通过蒸馏技术将推理能力传递给更小的模型。 DeepSeek-R1在Contributions部分重点提到两个贡献：（1）训练后：在基础模型上进行大规模强化学习。通过在基础模型上直接应用大规模强化学习，成功开发出具备自我验证和长思维链等推理能力的DeepSeek-R1 。（2）蒸馏：小模型同样强大。同时证明了大模型的推理模式可被有效蒸馏到小模型中，实现性能显著提升。一、 Post-Training: 大规模强化学习 LLMs的推理能力仅通过强化学习来激励？ DeepSeek-R1-Zero 表明大型语言模型（Large Language Models）的推理能力可以仅通过强化学习来激励，而无需监督微调。 DeepSeek直接在基础模型上应用强化学 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博