专栏名称: 深蓝学堂EDU

深蓝学院是专注于前沿科技的在线教育平台，为广大在校大学生、IT从业者、科研人员提供系统的前沿科技教育和咨询等服务。深蓝学院关注人工智能、机器人、增强现实等黑科技。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM界的AlphaGo：DeepSeek R1 Zero保姆级复现教程来了！

深蓝学堂EDU · 公众号 · · 2025-02-12 17:49

文章预览

🫱点这里加入16个细分方向交流群（🔥推荐）🫲 导读：你是否还在为理解DeepSeek-R1的"纯强化学习黑箱"而困惑？现在，有人在github上公开了Logic RL项目，完整开源了从base模型到R1 Zero的全流程代码，让每个人都能复现这个号称"LLM界AlphaGo"的神奇模型。 ©️【深蓝AI】编译项目地址：https://github.com/Unakar/Logic-RL 该项目通过三步构建完整复现链路： 1. 采用合成的Knights and Knaves(K )谜题数据（类似老实人和骗子的益智题），仅用2k不到的训练数据集就复现了R1 Zero类似的推理效果。 2. 设置了严苛的Reward规则，将Format Reward和Answer Reward分离，避免训练过程中出现的Reward Hacking的问题。 3. 基于GRPO算法实现无监督强化学习，并采用了三阶段RL的训练过程，成功复现 Deepseek R1 Zero的效果。 ■ 1.1. 量化指标在作者自己构建的测试集上和其他一些主流模型（o1 4o Deepsee ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

发现新西兰 · KFC开始卖炸鱼，网友：“先把鸡肉做好吧”

昨天

普通话测试报名中心 · 【重要】5月普测报名即将截止！速速报名！

9 月前

沐甜科技 · 【AI糖播报】巴西5月产糖量或创新高干旱风险不容小觑

9 月前

正商参略 · 刀郎爆了！朋友圈刷屏，超5000万人观看，他的复出为何成为“奇迹”？

5 月前

老井扯鸡蛋 · 三分治、七分养！维生素（红肽）您的蛋鸡养分管家！

1 月前