文章预览
摘要 我们介绍了我们第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 模型通过大规模强化学习 (RL) 进行训练,无需监督微调 (SFT) 作为预备步骤,展现出显著的推理能力。 通过强化学习,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。 然而,它也面临一些挑战,例如可读性差和语言混合。 为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在强化学习之前结合了多阶段训练和冷启动数据。 DeepSeek-R1 在推理任务上的性能可与 OpenAI-o1-1217 相媲美。 为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 和六个基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的稠密模型 (1.5B、7B、8B、14B、32B、70B)。 图 1: DeepSeek-R1 的基准性能。 1 引言 近年来,大型语言模型 (LLM) 经历了快速迭代和发展 (OpenAI, 2024a; Anthropic, 2024; Google, 2024
………………………………