专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

从零开始绘制DeepSeek R1架构和训练流程

深度学习与NLP  · 公众号  ·  · 2025-02-25 08:00
    

文章预览

作者:lucas大叔 原文: https://zhuanlan.zhihu.com/p/23018675736           快速概览 在讨论技术细节之前,先简单介绍一下 DeepSeek-R1 并非是从无到有从头开始训练的。相反,他们从一个相当聪明的 LLM 开始,他们已经有了 DeepSeek-V3 [1] ,但他们想让它成为一个推理超级明星。 为了做到这一点,他们使用了强化学习(简称 RL),当 LLM 做出有利于推理的事情时,就会奖励它,否则就会惩罚它。 但这不仅仅是一个简单的训练环节。它就像是一大堆步骤,称之为管道。他们首先尝试了纯RL,看看推理是否会自行出现,这就是 DeepSeek-R1-Zero,有点像一个实验。然后对于真正的 DeepSeek-R1,他们通过不同的阶段使其更有条理。他们给它一些起始数据令其运行,然后进行 RL,然后是更多数据,然后是更多 RL……就像是一步步升级! 关键在于让这些语言模型更好地思考问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览