QwQ-32B开源！更小尺寸，仅1/20参数性能比肩满血R1

魔搭ModelScope社区 · 公众号 · · 2025-03-06 18:26

文章预览

01 模型介绍今天，通义千问开源了推理模型QwQ-32B QwQ-32B 在一系列基准测试中进行了评估，测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。在测试数学能力的 AIME24 评测集上，以及评估代码能力的 LiveCodeBench 中，千问 QwQ-32B 表现与DeepSeek-R1相当，远胜于 o1-mini 及相同尺寸的R1 蒸馏模型；在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，千问 QwQ-32B 的得分均超越了 DeepSeek- R1。大规模强化学习研究团队在冷启动的基础上开展了大规模强化学习。在初始阶段，特别针对数学和编程任务进行了 RL 训练。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

雨果网 · 销量骤减，Temu开店高价商品被限流

昨天

雨果网 · 中国3C品牌Lofree的出海之路：从“小众美学”到全球化破圈

昨天

JP欧洲跨境服务 · 英国挂靠地址危机：J&P集团助力中国卖家成功追回50万英镑VAT退税

昨天

JP欧洲跨境服务 · 英国挂靠地址危机：J&P集团助力中国卖家成功追回50万英镑VAT退税

昨天

网信伊春 · 高考心理调适，这些建议一起看→

昨天

网信伊春 · 高考心理调适，这些建议一起看→

昨天

雨果网 · 中国3C品牌Lofree的出海之路：从“小众美学”到全球化破圈

昨天

北美留学生观察 · 【北京9.21周六】世界名校璀璨秋日酒会，期待见面！

8 月前

ShanghaiBUYBUY · 终于开馆了，敦煌当代美术馆！

6 月前

企名片 · 新质生产力|北京超级爸爸教育科技有限公司

4 月前

小强热线浙江教科 · 涨了！涨了！大涨了！网友：现在要买点吗？

3 月前

广西交通台 · 突然公告！他俩已办理离婚，分手费太惊人

2 月前