文章预览
🫱点这里加入16个细分方向交流群(🔥推荐)🫲 导读: 你是否还在为理解DeepSeek-R1的"纯强化学习黑箱"而困惑?现在,有人在github上公开了Logic RL项目,完整开源了从base模型到R1 Zero的全流程代码,让每个人都能复现这个号称"LLM界AlphaGo"的神奇模型。 ©️【深蓝AI】编译 项目地址:https://github.com/Unakar/Logic-RL 该项目通过三步构建完整复现链路 : 1. 采用合成的Knights and Knaves(K )谜题数据(类似老实人和骗子的益智题),仅用2k不到的训练数据集就复现了R1 Zero类似的推理效果。 2. 设置了严苛的Reward规则,将Format Reward和Answer Reward分离,避免训练过程中出现的Reward Hacking的问题。 3. 基于GRPO算法实现无监督强化学习,并采用了三阶段RL的训练过程,成功复现 Deepseek R1 Zero的效果。 ■ 1.1. 量化指标 在作者自己构建的测试集上和其他一些主流模型(o1 4o Deepsee
………………………………