从零开始绘制DeepSeek R1架构和训练流程

深度学习与NLP · 公众号 · · 2025-02-25 08:00

文章预览

作者：lucas大叔原文： https://zhuanlan.zhihu.com/p/23018675736 快速概览在讨论技术细节之前，先简单介绍一下 DeepSeek-R1 并非是从无到有从头开始训练的。相反，他们从一个相当聪明的 LLM 开始，他们已经有了 DeepSeek-V3 [1] ，但他们想让它成为一个推理超级明星。为了做到这一点，他们使用了强化学习（简称 RL），当 LLM 做出有利于推理的事情时，就会奖励它，否则就会惩罚它。但这不仅仅是一个简单的训练环节。它就像是一大堆步骤，称之为管道。他们首先尝试了纯RL，看看推理是否会自行出现，这就是 DeepSeek-R1-Zero，有点像一个实验。然后对于真正的 DeepSeek-R1，他们通过不同的阶段使其更有条理。他们给它一些起始数据令其运行，然后进行 RL，然后是更多数据，然后是更多 RL……就像是一步步升级！关键在于让这些语言模型更好地思考问题 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

东方网 · @上海人注意了，天气马上变化，今夜明天有中雨伴雷电，抓紧洗晒→

11 小时前

东方网 · 上海八旬老人一次被拔9颗牙，当场被送进ICU......

17 小时前

东方网 · 多地已实现！这笔钱直发个人！能领多少？怎么领？沪版最全攻略来了

昨天

今日闵行 · 雨雨雨在路上！闵行人：未来一周穿什么……

2 天前

上海发展改革 · 新进展！沪宁合高铁跨连镇高铁首跨钢横梁吊装到位

2 天前

中国国土空间规划 · 不忘为民初心携手奋发前行｜北京市责任规划师制度实施五周年成果展开幕

6 月前

融中财经 · 让人看不懂的叶国富，又给资本上了一课

1 月前