使用A10单卡24G复现DeepSeek R1强化学习过程

阿里云开发者 · 公众号 · 科技公司 · 2025-02-27 08:30

文章预览

阿里妹导读本文描述DeepSeek的三个模型的学习过程，其中DeepSeek-R1-Zero模型所涉及的强化学习算法，是DeepSeek最核心的部分之一会重点展示。一、背景随着DeepSeek的火爆使用，其背后的训练技术也值得深入学习，整体DeepSeek相关的训练过程如下图所示。其中主要涉及以下三个模型，其中DeepSeek-R1-Zero模型所涉及的强化学习算法，是DeepSeek最核心的部分之一，本次我们主要重现的也是这个部分。 1. DeepSeek-R1-Zero 是在基础模型DeepSeek-V3上进行强化学习（RL）后得到了DeepSeek-R1-Zero模型。该模型学会了如何推理、创建思维链序列，并具备自我验证和反思等能力。尽管DeepSeek-R1-Zero的学习能力令人惊叹，但它存在语言混合、可读性差等严重问题。 2. DeepSeek-R1 首先使用数千个思维链（CoT）序列示例形式的冷启动数据，在DeepSeek-V3上进行监督微调（SFT），目的是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博