文章预览
来自 Yineng Zhang 链接 https://zhuanlan.zhihu.com/p/718504437 Disclaimer: Opinions are my own. 如题,最近 vLLM 发了篇博客,声称在性能上取得了巨大提升 https://blog.vllm.ai/2024/09/05/perf-update.html 首先,我们非常乐见其成,vLLM v0.6.0 在 CPU 调度上借鉴了 LightLLM 和 SGLang 的实现,这本身也是对我们的一种认可 但是,在这里还是要指出一下 blog 中的几个事实性错误,以正视听 主要有几点: 1、vLLM 的复现方式中 https://github.com/vllm-project/vllm/issues/8176 单独对 vLLM 的 gpu util 调整成了 0.95 ,但是 SGLang,LMDeploy,TensorRT LLM 用的是默认值,这在极限吞吐上会有影响,造成了不公平 2、vLLM 在 v0.6.0 中实现了 multi step,在 benchmark 中将 multi step 设置为 10,这对于吞吐会有提升,因为减少了 CPU overhead,但是带来的副作用是 TTFT 和 ITL 会变大,TPOT 基本不受影响,原因在于 TPOT 的分母是 toke
………………………………