vLLM性能分析案例

吃果冻不吐果冻皮 · 公众号 · · 2024-11-03 16:49

文章预览

原文：https://www.zhihu.com/people/tongsanpangposts 关于vLLM的系列文章： vLLM源码之框架执行 vLLM源码之PagedAttention（持续更新） vLLM源码之模型并行本文主要以一个LLM推理案例，分析如何通过Nsight profile和torch profile深入分析LLM推理的性能。写这篇文章的目的如下：笔者在测试vLLM（0.5.1）、TP = 2、 FP8、deepseek-6.7b（Llama结构）、batch size = 1时，性能不符合预期（TP = 2的性能小于TP = 1的性能），于是自己profile一下，记录整个性能分析的过程，希望能给需要的人作为一个参考；最近关于vLLM和SGLang的性能，网上讨论的比较多，笔者认为，具体的知道哪些功能带来哪些提升，比提升多少更重要，通过profile系统，能够更好的知道时间花在哪里，对这两个框架感兴趣的读者，不妨自己profile一下，以更好的了解这些系统的性能提升原因； vLLM是一个非常优秀的框架，笔者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博