主要观点总结
本文详细概述了关于DeepSeek模型推理的部署和优化工作,包括前情回顾、推理性能指标概述、推理系统性能约束、约束带来的分叉、私有化部署、平台部署、未来优化的方向和对开源生态的建议。文章涉及多种部署策略、并行策略选择、KVCache的优化管理以及软硬件协同等问题。
关键观点总结
关键观点1: 前情回顾
介绍DeepSeek模型推理的背景和现状,以及不同的测评方式和部署需求。
关键观点2: 推理性能指标概述
概述推理系统的性能指标,包括TTFT和TPOT等。
关键观点3: 推理系统性能约束
探讨推理系统面临的主要性能约束,如用户SLA的约束、内存的约束等。
关键观点4: 约束带来的分叉
分析由于性能约束带来的系统分叉,包括私有化部署和平台部署的不同需求。
关键观点5: 私有化部署
介绍私有化部署的策略,包括使用SGLang和vLLM等工具,以及并行策略的选择。
关键观点6: 平台部署
介绍平台部署的策略,包括PD分离技术、Prefill阶段和Decode阶段的优化等。
关键观点7: 未来优化的方向和对开源生态的建议
探讨未来的优化方向,包括硬件和软件的协同、动态路由和专家放置等问题,并对开源生态提出建议。
文章预览
TL;DR 春节假期开始, 好像很多人都在开始卷DeepSeek-R1的推理了. 渣B也被兄弟团队带着一起卷了一阵, 其实推理中还有很多约束, 比较认同的是章老师的一个观点: “推理框架很有可能就此走向两种极致分化的方向.“ 本文来做一个详细的阐述, 从一些乱七八糟的benchmark开始, 然后谈谈测试方法, 推理系统的各种约束, 推理框架的区别, 并行策略的区别,然后再解构一下DeepSeek的原厂方案. 1. 前情回顾 2. 推理性能指标概述 3. 推理系统性能约束 3.1 用户SLA的约束 3.2 内存的约束 4.约束带来的分叉 5. 私有化部署 5.1 基于SGLang 5.2 基于vLLM 5.3 并行策略选择 6. 平台部署 6.1 PD分离技术 6.2 Prefill阶段 6.3 Decode阶段 7. 未来优化的方向和对开源生态的建议 1. 前情回顾 比较现实的是两个极端, 一方面是各种平台的测评, 例如公众号“ CLUE中文语言理解测评基准 ”的 《DeepSeek-R1 网
………………………………