今天看啥  ›  专栏  ›  架构师带你玩转AI

一文搞懂DeepSeek - 强化学习和蒸馏

架构师带你玩转AI  · 公众号  ·  · 2025-02-01 23:43
    

文章预览

DeepSeek-R1在Introduction部分提到,R1通过结合 冷启动数据、多阶段训练管道和纯强化学习 ,显著提升了大型语言模型的推理能力,实现了与OpenAI的o1系列模型相当的性能,并通过 蒸馏技术将推理能力传递给更小的模型 。 DeepSeek-R1在Contributions部分重点提到两个贡献: (1)训练后:在基础模型上进行大规模强化学习。 通过在基础模型上直接应用大规模强化学习 ,成功开发出具备 自我验证和长思维链等推理能力的DeepSeek-R1 。 (2)蒸馏:小模型同样强大。同时 证明了 大模型的推理模式可被有效蒸馏到小模型中,实现性能显著提升 。 一、 Post-Training: 大规模强化学习 LLMs的推理能力仅通过强化学习来激励? DeepSeek-R1-Zero 表明大型语言模型(Large Language Models)的推理能力可以 仅通过强化学习来激励,而无需监督微调 。 DeepSeek直接 在基础模型上应用强化学 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览