文章预览
翻译自 https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-2-towards-optimal-batching-for-llm-serving-2a174d45ee3a 该文章测试了最新版(9.24)trt-llm和vllm的性能,不过文中没有提到是否使用 vllm在0.6.2版本更新的Multi-step Scheduling 。 在之前的文章 中,我们在默认配置和特定限制下对 vLLM 和 TensorRT-LLM 进行了比较,提供了它们基准性能的一些看法。然而,依赖默认设置或仅调整单个参数并不足以充分发挥这些框架的能力,特别是在复杂的实际环境中。 在本系列的这篇文章中,我们通过调整关键参数如 最大批量大小(maximum batch size) 和 最大token数 来进行更深入的探索。我们将逐步调整这些参数,调查它们如何影响每个框架的性能。这将帮助我们找出最佳的批量配置,以实现 vLLM 和 TensorRT-LLM 的最佳性能,展示它们在更广泛场景中的优势和劣势。 两阶段文本生成 Two-ph
………………………………