今天看啥  ›  专栏  ›  得物技术

从大模型性能优化到DeepSeek部署|得物技术

得物技术  · 公众号  ·  · 2025-02-17 18:30
    

文章预览

目录 一、背景 二、高性能、易扩展的大模型推理框架是什么样的     1.大模型推理框架需要满足的基本条件     2.大模型推理框架设计 三、解决显存碎片问题,大幅提升吞吐—Paged Attention 四、缓存之前请求的计算结果,减少重复计算—Radix Attention 五、请求分块处理,避免单个请求卡顿 —— Chunked Prefill 六、缩短输出长度,显著提升性能 七、使用多卡推理,推理速度翻倍 八、小模型推理+大模型验证 —— 预测解码 (Speculative Decoding) 九、高效部署Deepseek-R1模型的方法 十、总结 一 背景 Deepseek-r1模型的爆火标志着本地部署大模型的需求日益增长。本文主要探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析, 文章最后我们将分享如何在本地高效部署满血版Deepseek-r1大模型 。 在生产环境中,我们已部署专用的大模型推理集群,并对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览