专栏名称: 阿里云基础设施
为了永不停机的计算服务
目录
相关文章推荐
今天看啥  ›  专栏  ›  阿里云基础设施

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由

阿里云基础设施  · 公众号  ·  · 2025-03-08 14:58
    

文章预览

背景介绍 1. QwQ-32B模型 阿里云最新发布的QwQ-32B模型,通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数,其性能可以与DeepSeek-R1 671B媲美。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1满血版水平,各指标均显著超过同样基于Qwen2.5-32B的DeepSeek-R1-Distill-Qwen-32B。更多模型信息请参考 QwQ-32B[1] 。 2. vLLM vLLM[2] 是一个高效易用的大语言模型推理服务框架,vLLM支持包括通义千问在内的多种常见大语言模型。vLLM通过PagedAttention优化、动态批量推理(continuous batching)、模型量化等优化技术,可以取得较好的大语言模型推理效率。更多关于vLLM框架的信息,请参考 vLLM Github代码库[3] 。 前提条件 • 已创建包含GPU的Kubernetes集群。具体操作,请参见 创建包含GPU的Kubernetes集群[4] 。 至少有一个ecs.gn ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览