文章预览
本文转载来源:量子位公众号,梦晨发自凹非寺 起猛了,Qwen发布最新32B推理模型,跑分不输671B的满血版DeepSeek R1。 都是杭州团队,要不要这么卷。 QwQ-32B,基于Qwen2.5-32B+强化学习炼成。 之后还将与Agent相关的功能集成到推理模型中: 可以在调用工具的同时进行进行批判性思考,并根据环境反馈调整其思考过程。 QwQ-32B的权重以Apache 2.0 许可证开源,并且可以通过Qwen Chat在线体验。 手快的网友直接就是一个本地部署在m4max芯片苹果笔记本上。 也有网友连夜at各大第三方API托管方,赶紧起来干活了。 32B不输DeepSeek R1 目前QwQ-32B还未放出完整技术报告,官方发布页面对强化学习方法做了简短说明: 从一个冷启动检查点开始,实施了由Outcome Based Reward驱动的强化学习(RL)扩展方法。 在初始阶段专门针对数学和编码任务扩展强化学习,没有依赖传统的
………………………………