文章预览
TL;DR 春节假期开始, 好像很多人都在开始卷DeepSeek-R1的推理了. 渣B也被兄弟团队带着一起卷了一阵, 其实推理中还有很多约束, 比较认同的是章老师的一个观点: “推理框架很有可能就此走向两种极致分化的方向.“ 本文来做一个详细的阐述, 从一些乱七八糟的benchmark开始, 然后谈谈测试方法, 推理系统的各种约束, 推理框架的区别, 并行策略的区别,然后再解构一下DeepSeek的原厂方案. 1. 前情回顾 2. 推理性能指标概述 3. 推理系统性能约束 3.1 用户SLA的约束 3.2 内存的约束 4.约束带来的分叉 5. 私有化部署 5.1 基于SGLang 5.2 基于vLLM 5.3 并行策略选择 6. 平台部署 6.1 PD分离技术 6.2 Prefill阶段 6.3 Decode阶段 7. 未来优化的方向和对开源生态的建议 1. 前情回顾 比较现实的是两个极端, 一方面是各种平台的测评, 例如公众号“ CLUE中文语言理解测评基准 ”的 《DeepSeek-R1 网
………………………………