专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

DeepSeek-R1:基于强化学习激励大语言模型的推理能力

FightingCV  · 公众号  ·  · 2025-02-10 09:00
    

文章预览

摘要 我们介绍了我们第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。  DeepSeek-R1-Zero 模型通过大规模强化学习 (RL) 进行训练,无需监督微调 (SFT) 作为预备步骤,展现出显著的推理能力。  通过强化学习,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。  然而,它也面临一些挑战,例如可读性差和语言混合。  为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在强化学习之前结合了多阶段训练和冷启动数据。  DeepSeek-R1 在推理任务上的性能可与 OpenAI-o1-1217 相媲美。  为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 和六个基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的稠密模型 (1.5B、7B、8B、14B、32B、70B)。 图 1:   DeepSeek-R1 的基准性能。 1 引言 近年来,大型语言模型 (LLM) 经历了快速迭代和发展 (OpenAI, 2024a; Anthropic, 2024; Google, 2024 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览