如何复现 SGLang v0.3.0 和 vLLM v0.6.0 的性能测试

oldpan博客 · 公众号 · · 2024-09-06 10:12

文章预览

来自 Yineng Zhang 链接 https://zhuanlan.zhihu.com/p/718504437 Disclaimer: Opinions are my own. 如题，最近 vLLM 发了篇博客，声称在性能上取得了巨大提升 https://blog.vllm.ai/2024/09/05/perf-update.html 首先，我们非常乐见其成，vLLM v0.6.0 在 CPU 调度上借鉴了 LightLLM 和 SGLang 的实现，这本身也是对我们的一种认可但是，在这里还是要指出一下 blog 中的几个事实性错误，以正视听主要有几点： 1、vLLM 的复现方式中 https://github.com/vllm-project/vllm/issues/8176 单独对 vLLM 的 gpu util 调整成了 0.95 ，但是 SGLang，LMDeploy，TensorRT LLM 用的是默认值，这在极限吞吐上会有影响，造成了不公平 2、vLLM 在 v0.6.0 中实现了 multi step，在 benchmark 中将 multi step 设置为 10，这对于吞吐会有提升，因为减少了 CPU overhead，但是带来的副作用是 TTFT 和 ITL 会变大，TPOT 基本不受影响，原因在于 TPOT 的分母是 toke ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾儿天空 · 11月第4周起点月票榜：《夜无疆》升至第三，《轮回乐园》请假两周

11 小时前

奇舞精选 · 前端工程师的 AI DAY 来啦！

3 天前

奇舞精选 · 前端工程师的 AI DAY 来啦！

3 天前

学习强国 · 国国在西班牙很想你 | 吃得丰盛，心情尚佳，亲友勿念

4 天前

学习强国 · 国国在西班牙很想你 | 吃得丰盛，心情尚佳，亲友勿念

4 天前

前端早读课 · 【早阅】8 条设计高效 API 的建议

5 天前

东西文娱 · 摇荡人生，被认为是编剧的我们

2 月前

长沙发布 · 橘子洲景区发布临时管控通告

1 月前