文章预览
来源:硬科普 引言 1.1 贡献 1.2 评估结果摘要 方法 2.1 概述 2.2 DeepSeek-R1-Zero:基于基础模型的强化学习 2.2.1 强化学习算法 2.2.2 奖励建模 2.2.3 训练模板 2.2.4 DeepSeek-R1-Zero的性能、自进化过程与顿悟时刻 2.3 DeepSeek-R1:基于冷启动的强化学习 2.3.1 冷启动 2.3.2 面向推理的强化学习 2.3.3 拒绝采样与监督微调 2.3.4 全场景强化学习 2.4 蒸馏:为小模型赋能推理能力 实验 3.1 DeepSeek-R1评估 3.2 蒸馏模型评估 讨论 4.1 蒸馏 vs. 强化学习 4.2 失败的尝试 结论、局限性与未来工作 附录A 贡献与致谢 1. 引言 (Introduction) 近年来,大型语言模型 (Large Language Models, LLMs) 正经历着快速的迭代与演进 (Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐步缩小与通用人工智能 (Artificial General Intelligence, AGI) 之间的差距。 最近,后训练 (post-training) 已成为完整训练流程中的重要组成部分。研究表明
………………………………