专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

LLM推理引擎性能评测:vllm、lmdeploy、tensorrt-llm 请应战!

魔搭ModelScope社区  · 公众号  ·  · 2024-06-27 22:34

文章预览

01 简介 在当今LLM时代,大模型的效果已经取得了长足的进步,逐渐成为业务流程中的重要部分,因此对性能进行评估变得至关重要,由于目前LLM推理都需要比较高级的GPU,使得LLM推理成本高,因此在不同使用场景下优化推理就很有必要。对于提供公共推理服务,比如openai等来说,提高吞吐率优先级比较高,而在一些专用的业务场景,则对首包延迟和整体请求延迟有着较高要求。 目前业界已经开发了各种各样的LLM推理引擎,如VLLM,LLMDeploy,huggingface(text-generation-inference), DeepSpeed-Inference,以及大量的商业化API,本文介绍LLM性能主要指标,以及介绍如何基于魔搭社区的模型效果性能评估工具EvalScope( https://github.com/modelscope/eval-scope )进行性能压测,并通过wandb进行压测结果对比。 02 LLM推理关键指标以及影响 Throughput 总的吞吐(output tokens/seconds),对于L ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览