专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
目录
相关文章推荐
今天看啥  ›  专栏  ›  斌叔OKmath

我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进-20250213075327

斌叔OKmath  · 微博  ·  · 2025-02-13 07:53
    

文章预览

2025-02-13 07:53 本条微博链接 我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进行微调的 1.5B 参数模型,其数学基准测试结果超越了 @OpenAI 的 O1 预览版,证明了即使对于较小的模型,强化学习扩展也是有效的。 食谱: 0 ⃣从DeepSeek-R1-Distill-Qwen-1.5B开始。 1 ⃣从 AIME、AMC、Omni-MATH 和 Still 数据集中创建了一个包含约 40,000 个独特问题答案对的数据集。数据处理包括答案提取、重复数据删除和不可评分问题的过滤。 2 ⃣定 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览