专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

S1 简单缩放:SFT Qwen 32B 在数学方面的表现比 O-20250204090555

斌叔OKmath  · 微博  ·  · 2025-02-04 09:05
    

文章预览

2025-02-04 09:05 本条微博链接 S1 简单缩放:SFT Qwen 32B 在数学方面的表现比 O1 预览版高出 27% 🔥 s1-32B 在竞赛数学问题(MATH 和 AIME24)上的表现比 o1-preview 高出 27% 通过预算强制,s1-32B 在 AIME24 上的效率从 50% 提高到了 57% 创建了一个小型数据集 s1K,其中包含 1,000 个问题和推理痕迹 预算强制: 通过强制终止模型的思考过程来控制测试时间计算 当模型试图结束时,通过多次附加“等待”来延长该过程 鼓励模型仔细检查答 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览