专栏名称: 阿里云基础设施
为了永不停机的计算服务
今天看啥  ›  专栏  ›  阿里云基础设施

基于Knative快速部署DeepSeek-R1

阿里云基础设施  · 公众号  ·  · 2025-02-20 17:00
    

文章预览

传统的基于GPU利用率的弹性伸缩策略无法准确反映大模型推理服务的实际负载情况,即使GPU利用率达到了100%,也不一定表明系统正处在高负荷运行状态。Knative提供的自动扩缩容机制KPA(Knative Pod Autoscaler)能够根据QPS或RPS来调整资源分配,更直接地反映推理服务的性能表现。本文以DeepSeek-R1模型、GPU类型为A10卡为例,介绍如何在Knative中部署一个DeepSeek-R1推理服务。 DeepSeek-R1是一个由 深度求索人工智能公司(DeepSeek AI) 开发的大型语言模型(LLM)系列,专注于高性能、高效率的自然语言处理任务。它是DeepSeek公司推出的第一代(R1)模型,旨在为企业和开发者提供强大的语言理解和生成能力。 准备 • 已在ACK集群中部署Knative,请参见部署Knative。 • 已部署使用ECI资源所需的ack-virtual-node组件,请参见部署ack-virtual-node组件。 部署DeepSeek-R1模型 创建Knativ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览