专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

如何复现 SGLang v0.3.0 和 vLLM v0.6.0 的性能测试

oldpan博客  · 公众号  ·  · 2024-09-06 10:12

文章预览

来自    Yineng Zhang 链接  https://zhuanlan.zhihu.com/p/718504437 Disclaimer: Opinions are my own. 如题,最近 vLLM 发了篇博客,声称在性能上取得了巨大提升 https://blog.vllm.ai/2024/09/05/perf-update.html 首先,我们非常乐见其成,vLLM v0.6.0 在 CPU 调度上借鉴了 LightLLM 和 SGLang 的实现,这本身也是对我们的一种认可 但是,在这里还是要指出一下 blog 中的几个事实性错误,以正视听 主要有几点: 1、vLLM 的复现方式中 https://github.com/vllm-project/vllm/issues/8176 单独对 vLLM 的 gpu util 调整成了 0.95 ,但是 SGLang,LMDeploy,TensorRT LLM 用的是默认值,这在极限吞吐上会有影响,造成了不公平 2、vLLM 在 v0.6.0 中实现了 multi step,在 benchmark 中将 multi step 设置为 10,这对于吞吐会有提升,因为减少了 CPU overhead,但是带来的副作用是 TTFT 和 ITL 会变大,TPOT 基本不受影响,原因在于 TPOT 的分母是 toke ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览