文章预览
2025-02-13 07:53
本条微博链接
我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进行微调的 1.5B 参数模型,其数学基准测试结果超越了 @OpenAI 的 O1 预览版,证明了即使对于较小的模型,强化学习扩展也是有效的。 食谱: 0 ⃣从DeepSeek-R1-Distill-Qwen-1.5B开始。 1 ⃣从 AIME、AMC、Omni-MATH 和 Still 数据集中创建了一个包含约 40,000 个独特问题答案对的数据集。数据处理包括答案提取、重复数据删除和不可评分问题的过滤。 2 ⃣定
………………………………