使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由

阿里云基础设施 · 公众号 · · 2025-03-08 14:58

文章预览

背景介绍 1. QwQ-32B模型阿里云最新发布的QwQ-32B模型，通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数，其性能可以与DeepSeek-R1 671B媲美。模型数学代码等核心指标（AIME 24/25、livecodebench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1满血版水平，各指标均显著超过同样基于Qwen2.5-32B的DeepSeek-R1-Distill-Qwen-32B。更多模型信息请参考 QwQ-32B[1] 。 2. vLLM vLLM[2] 是一个高效易用的大语言模型推理服务框架，vLLM支持包括通义千问在内的多种常见大语言模型。vLLM通过PagedAttention优化、动态批量推理（continuous batching）、模型量化等优化技术，可以取得较好的大语言模型推理效率。更多关于vLLM框架的信息，请参考 vLLM Github代码库[3] 。前提条件 • 已创建包含GPU的Kubernetes集群。具体操作，请参见创建包含GPU的Kubernetes集群[4] 。至少有一个ecs.gn ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博