专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

vLLM vs TensorRT-LLM 性能对比测试二(Towards Optimal Batching),基于最新版本

oldpan博客  · 公众号  ·  · 2024-10-16 09:25
    

文章预览

翻译自 https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-2-towards-optimal-batching-for-llm-serving-2a174d45ee3a  该文章测试了最新版(9.24)trt-llm和vllm的性能,不过文中没有提到是否使用 vllm在0.6.2版本更新的Multi-step Scheduling 。 在之前的文章 中,我们在默认配置和特定限制下对 vLLM 和 TensorRT-LLM 进行了比较,提供了它们基准性能的一些看法。然而,依赖默认设置或仅调整单个参数并不足以充分发挥这些框架的能力,特别是在复杂的实际环境中。 在本系列的这篇文章中,我们通过调整关键参数如 最大批量大小(maximum batch size) 和 最大token数 来进行更深入的探索。我们将逐步调整这些参数,调查它们如何影响每个框架的性能。这将帮助我们找出最佳的批量配置,以实现 vLLM 和 TensorRT-LLM 的最佳性能,展示它们在更广泛场景中的优势和劣势。 两阶段文本生成 Two-ph ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览