文章预览
DeepSeek-R1:通过强化学习提升大语言模型 (LLM) 的推理能力 DeepSeek-AI research@deepseek.com 原文链接:https://arxiv.org/pdf/2501.12948 摘要 (Abstract) 我们在此介绍第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一种通过大规模强化学习 (Reinforcement Learning, RL) 训练的模型,在初始阶段未依赖监督微调 (Supervised Fine-Tuning, SFT),但表现出卓越的推理能力。在强化学习过程中,DeepSeek-R1-Zero 自然地展现出多种强大且引人入胜的推理行为。然而,该模型面临诸如可读性差和语言混杂等挑战。 为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1。该模型在强化学习之前加入了多阶段训练流程和冷启动数据。DeepSeek-R1 在推理任务中的性能已达到与 OpenAI-o1-1217 相当的水平。 为了支持研究社区的发展,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 蒸馏
………………………………