专栏名称: 赛博禅心
拜AI古佛,修赛博禅心
目录
今天看啥  ›  专栏  ›  赛博禅心

DeepSeek-R1 是怎么训练的|深度拆解

赛博禅心  · 公众号  ·  · 2025-01-21 11:16
    

文章预览

自大 DeepSeek-v3 惊艳全场后: DeepSeek-V3 是怎么训练的|深度拆解 昨天晚上,DeepSeek 又开源了 DeepSeek-R1 模型(后简称 R1),再次炸翻了中美互联网:  R1 遵循 MIT License ,允许用户通过蒸馏技术借助 R1 训练其他模型。 R1 上线 API,对用户开放思维链输出 R1 在数学、代码、自然语言推理等任务上, 性能比肩 OpenAI o1 正式版,小模型则超越 OpenAI o1-mini 最离谱的是, 价格只有 OpenAI 的几十分之一   下面,让我们以更加系统的方式,来看看这次的 R1,是这么炼成的。    本文将从 性能、方法、蒸馏、展望 几个纬度来拆解 V3,所用到的图表、数据源于其论文:《R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。   公众号后台回复: DSR1 ,获得详细报告。      结论前置 先插入一句: 除了 R1 之外,DeepSeek 还发布了 R1-Zero R1-Zero 基于 DeepSeek-V3- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览