专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

vLLM性能分析案例

吃果冻不吐果冻皮  · 公众号  ·  · 2024-11-03 16:49
    

文章预览

原文:https://www.zhihu.com/people/tongsanpangposts 关于vLLM的系列文章: vLLM源码之框架执行 vLLM源码之PagedAttention(持续更新) vLLM源码之模型并行 本文主要以一个LLM推理案例,分析如何通过Nsight profile和torch profile深入分析LLM推理的性能。写这篇文章的目的如下: 笔者在测试vLLM(0.5.1)、TP = 2、 FP8、deepseek-6.7b(Llama结构)、batch size = 1时,性能不符合预期(TP = 2的性能小于TP = 1的性能),于是自己profile一下,记录整个性能分析的过程,希望能给需要的人作为一个参考; 最近关于vLLM和SGLang的性能,网上讨论的比较多,笔者认为, 具体的知道哪些功能带来哪些提升,比提升多少更重要,通过profile系统,能够更好的知道时间花在哪里 ,对这两个框架感兴趣的读者,不妨自己profile一下,以更好的了解这些系统的性能提升原因; vLLM是一个非常优秀的框架,笔者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览