专栏名称: 深蓝学堂EDU
深蓝学院是专注于前沿科技的在线教育平台,为广大在校大学生、IT从业者、科研人员提供系统的前沿科技教育和咨询等服务。深蓝学院关注人工智能、机器人、增强现实等黑科技。
目录
今天看啥  ›  专栏  ›  深蓝学堂EDU

LLM界的AlphaGo:DeepSeek R1 Zero保姆级复现教程来了!

深蓝学堂EDU  · 公众号  ·  · 2025-02-12 17:49
    

文章预览

🫱点这里加入16个细分方向交流群(🔥推荐)🫲 导读: 你是否还在为理解DeepSeek-R1的"纯强化学习黑箱"而困惑?现在,有人在github上公开了Logic RL项目,完整开源了从base模型到R1 Zero的全流程代码,让每个人都能复现这个号称"LLM界AlphaGo"的神奇模型。 ©️【深蓝AI】编译 项目地址:https://github.com/Unakar/Logic-RL 该项目通过三步构建完整复现链路 : 1. 采用合成的Knights and Knaves(K )谜题数据(类似老实人和骗子的益智题),仅用2k不到的训练数据集就复现了R1 Zero类似的推理效果。 2. 设置了严苛的Reward规则,将Format Reward和Answer Reward分离,避免训练过程中出现的Reward Hacking的问题。 3. 基于GRPO算法实现无监督强化学习,并采用了三阶段RL的训练过程,成功复现 Deepseek R1 Zero的效果。 ■ 1.1.  量化指标 在作者自己构建的测试集上和其他一些主流模型(o1 4o Deepsee ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览