DeepSeek-R1 是怎么训练的｜深度拆解

赛博禅心 · 公众号 · · 2025-01-21 11:16

文章预览

自大 DeepSeek-v3 惊艳全场后： DeepSeek-V3 是怎么训练的｜深度拆解昨天晚上，DeepSeek 又开源了 DeepSeek-R1 模型（后简称 R1），再次炸翻了中美互联网：　 R1 遵循 MIT License ，允许用户通过蒸馏技术借助 R1 训练其他模型。 R1 上线 API，对用户开放思维链输出 R1 在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版，小模型则超越 OpenAI o1-mini 最离谱的是，价格只有 OpenAI 的几十分之一　下面，让我们以更加系统的方式，来看看这次的 R1，是这么炼成的。　　本文将从性能、方法、蒸馏、展望几个纬度来拆解 V3，所用到的图表、数据源于其论文：《R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。　　公众号后台回复： DSR1 ，获得详细报告。　　　结论前置先插入一句：除了 R1 之外，DeepSeek 还发布了 R1-Zero R1-Zero 基于 DeepSeek-V3- ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博