文章预览
本文主要探讨 TGI 的小兄弟 - TGI 基准测试工具 。它能帮助我们超越简单的吞吐量指标,对 TGI 进行更全面的性能剖析,以更好地了解如何根据实际需求对服务进行调优并按需作出最佳的权衡及决策。如果你曾觉得 LLM 服务部署成本太高,或者你想对部署进行调优,那么本文很适合你! TGI https://github.com/huggingface/text-generation-inference TGI 基准测试工具 https://github.com/huggingface/text-generation-inference/blob/main/benchmark/README.md 我将向大家展示如何轻松通过 Hugging Face 空间 进行服务性能剖析。你可以把获得的分析结果用于 推理端点 或其他相同硬件的平台的部署。 Hugging Face 空间 https://hf.co/spaces 推理端点 https://hf.co/inference-endpoints/dedicated 动机 为了更好地理解性能剖析的必要性,我们先讨论一些背景信息。 大语言模型 (LLM) 从根子上来说效率就比较低,这主要源自其
………………………………