我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进-20250213075327

斌叔OKmath · 微博 · · 2025-02-13 07:53

文章预览

2025-02-13 07:53 本条微博链接我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进行微调的 1.5B 参数模型，其数学基准测试结果超越了 @OpenAI 的 O1 预览版，证明了即使对于较小的模型，强化学习扩展也是有效的。食谱： 0 ⃣从DeepSeek-R1-Distill-Qwen-1.5B开始。 1 ⃣从 AIME、AMC、Omni-MATH 和 Still 数据集中创建了一个包含约 40,000 个独特问题答案对的数据集。数据处理包括答案提取、重复数据删除和不可评分问题的过滤。 2 ⃣定 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

Hanson老登 · 今晚读它

6 月前

PChouse家居画报 · 阳光、树影、引景入画…论居家松弛感还得看川渝人！

3 月前

济宁市场监管 · 济宁市召开知识产权代理机构监管及非正常专利申请规制座谈会

2 月前

常岩CY · 这个视频我看前十秒还以为是恶搞视频，看到最后发现是真的有手艺……-20250119153504

1 月前