vLLM vs TensorRT-LLM 性能对比测试二（Towards Optimal Batching），基于最新版本

oldpan博客 · 公众号 · · 2024-10-16 09:25

文章预览

翻译自 https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-2-towards-optimal-batching-for-llm-serving-2a174d45ee3a 该文章测试了最新版（9.24）trt-llm和vllm的性能，不过文中没有提到是否使用 vllm在0.6.2版本更新的Multi-step Scheduling 。在之前的文章中，我们在默认配置和特定限制下对 vLLM 和 TensorRT-LLM 进行了比较，提供了它们基准性能的一些看法。然而，依赖默认设置或仅调整单个参数并不足以充分发挥这些框架的能力，特别是在复杂的实际环境中。在本系列的这篇文章中，我们通过调整关键参数如最大批量大小（maximum batch size）和最大token数来进行更深入的探索。我们将逐步调整这些参数，调查它们如何影响每个框架的性能。这将帮助我们找出最佳的批量配置，以实现 vLLM 和 TensorRT-LLM 的最佳性能，展示它们在更广泛场景中的优势和劣势。两阶段文本生成 Two-ph ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

超红可乐 · 一招儿，轻松超越“陈小群”

3 小时前

超红可乐 · 一招儿，轻松超越“陈小群”

3 小时前

中国安全生产网 · 荒唐！一张作业票，20多人审签？

8 小时前

金融早实习 · 安信基金2025校园招聘公告

昨天

中国安全生产网 · 提请全国人大常委会审议！

昨天

豆瓜的投资笔记 · 黑天鹅，暴跌

4 天前

读书有范 · 一个不怕任何事的顶级思维

3 月前

好地讯江苏 · 太仓天镜湖畔纯新盘公示，打造12幢四代住宅产品

1 周前