文章预览
01 简介 在当今LLM时代,大模型的效果已经取得了长足的进步,逐渐成为业务流程中的重要部分,因此对性能进行评估变得至关重要,由于目前LLM推理都需要比较高级的GPU,使得LLM推理成本高,因此在不同使用场景下优化推理就很有必要。对于提供公共推理服务,比如openai等来说,提高吞吐率优先级比较高,而在一些专用的业务场景,则对首包延迟和整体请求延迟有着较高要求。 目前业界已经开发了各种各样的LLM推理引擎,如VLLM,LLMDeploy,huggingface(text-generation-inference), DeepSpeed-Inference,以及大量的商业化API,本文介绍LLM性能主要指标,以及介绍如何基于魔搭社区的模型效果性能评估工具EvalScope( https://github.com/modelscope/eval-scope )进行性能压测,并通过wandb进行压测结果对比。 02 LLM推理关键指标以及影响 Throughput 总的吞吐(output tokens/seconds),对于L
………………………………