文章预览
Datawhale干货 作者 : 邓恺俊,Datawhale成员 项目代码可见:unlock-deepseek/Datawhale-R1(https://github.com/datawhalechina/unlock-deepseek),欢迎关注和 star! 其余所有开源内容见文末。 各位同学好,我是来自 Unlock-DeepSeek 团队的邓恺俊。 之前有同学问:主播主播,你们团队的复现的 R1 Zero 确实很强,但是还是太耗算力资源,没 3 张 A800 啊,还有没有更经济更简单的方式来学习 R1 Zero 的复现呢? 有的,兄弟,有的有的,像这样的方案还有九个(开玩笑)。今天我们来介绍一个有趣的方法, 能够让你在单卡复现 DeepSeek R1 Zero,甚至只用一块 4090 显卡也能轻松实现! 为什么单卡就能复现? 你可能会问:“原来需要 3 张 A800,如今怎么只需单卡?这其中有什么黑科技?” 答案就在于我们引入了 Unsloth + LoRA 。 Unsloth 的核心优势在于: 强化学习算法优化 :集
………………………………