专栏名称: 天池大数据科研平台

天池，基于阿里云的开放数据处理服务ODPS，面向学术界开放海量数据和分布式计算资源，旨在打造“数据众智、众创”第一平台。在这里，人人都可以玩转大数据，共同探索数据众创新模式。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

阿里推理模型一战封神！32B硬刚671B DeepSeek，1/10成本，苹果笔记本可跑

天池大数据科研平台 · 公众号 · 大数据 · 2025-03-06 10:27

文章预览

本文转载来源：量子位公众号，梦晨发自凹非寺起猛了，Qwen发布最新32B推理模型，跑分不输671B的满血版DeepSeek R1。都是杭州团队，要不要这么卷。 QwQ-32B，基于Qwen2.5-32B+强化学习炼成。之后还将与Agent相关的功能集成到推理模型中：可以在调用工具的同时进行进行批判性思考，并根据环境反馈调整其思考过程。 QwQ-32B的权重以Apache 2.0 许可证开源，并且可以通过Qwen Chat在线体验。手快的网友直接就是一个本地部署在m4max芯片苹果笔记本上。也有网友连夜at各大第三方API托管方，赶紧起来干活了。 32B不输DeepSeek R1 目前QwQ-32B还未放出完整技术报告，官方发布页面对强化学习方法做了简短说明：从一个冷启动检查点开始，实施了由Outcome Based Reward驱动的强化学习（RL）扩展方法。在初始阶段专门针对数学和编码任务扩展强化学习，没有依赖传统的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博