专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

这太疯狂了——加州大学伯克利分校证明了一个微型 1.5B 模型在-20250212090650

斌叔OKmath  · 微博  ·  · 2025-02-12 09:06
    

文章预览

2025-02-12 09:06 本条微博链接 这太疯狂了——加州大学伯克利分校证明了一个微型 1.5B 模型在强化学习数学上击败了 o1 预览版! 他们将简单的 RL 应用于 Deepseek-R1-Distilled-Qwen-1.5B 上的 40K 数学问题,在 8K 上下文中训练,然后扩展到 16K 和 24K。 3,800 个 A100 小时(4,500 美元)在数学上击败 o1 预览! 最好的是他们开源了一切:模型、训练代码(基于字节跳动 verl 库)和数据集。 blog: 网页链接 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览