专栏名称: 极客重生
鹅厂资深工程师,tencent cloud网络核心成员,分享云计算核心技术,网络核心技术,高性能网络服务器,Linux内核核心技术,丰富面试&职场经验,专注硬核知识分享和你一起涅槃重生。
目录
相关文章推荐
GiantPandaLLM  ·  从DeepSeek ... ·  昨天  
GiantPandaLLM  ·  SGLang MLA 实现解析 ·  3 天前  
今天看啥  ›  专栏  ›  极客重生

谈谈DeepSeek-R1满血版推理部署和优化

极客重生  · 公众号  ·  · 2025-03-07 12:27
    

文章预览

TL;DR 春节假期开始, 好像很多人都在开始卷DeepSeek-R1的推理了. 渣B也被兄弟团队带着一起卷了一阵, 其实推理中还有很多约束, 比较认同的是章老师的一个观点: “推理框架很有可能就此走向两种极致分化的方向.“ 本文来做一个详细的阐述, 从一些乱七八糟的benchmark开始, 然后谈谈测试方法, 推理系统的各种约束, 推理框架的区别, 并行策略的区别,然后再解构一下DeepSeek的原厂方案. 1. 前情回顾 2. 推理性能指标概述 3. 推理系统性能约束 3.1 用户SLA的约束 3.2 内存的约束 4.约束带来的分叉 5. 私有化部署 5.1 基于SGLang 5.2 基于vLLM 5.3 并行策略选择 6. 平台部署 6.1 PD分离技术 6.2 Prefill阶段 6.3 Decode阶段 7. 未来优化的方向和对开源生态的建议 1. 前情回顾 比较现实的是两个极端, 一方面是各种平台的测评, 例如公众号“ CLUE中文语言理解测评基准 ”的 《DeepSeek-R1 网 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览