专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

LLM后端推理引擎性能大比拼

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-14 11:50
    

文章预览

【点击】 加入大模型技术交流群 原文: BentoM L 工程团 队 翻 译: OpenMMLab 原文链接:https://www.bentoml.com/blog/benchmarking-llm-inference-backends 选择适宜的推理后端来服务大语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验,还可以通过 token 的高生成率和资源利用率降本增效。如今,开发者可以选择多种由知名研究和行业团队创建的推理后端。但是,为特定用例选择最佳后端可能具有挑战性。 为了帮助开发者做出明智的决策, BentoML 工程团队在 BentoCloud 上,分别使用 vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI 搭建了 Llama 3 推理服务,并对推理性能进行了全面的基准测试。 这些推理后端使用以下两个关键指标进行评估: Time to First Token (TTFT) :首 token 延时,衡量从发送请求到生成第一个 token 所花费的时间,以毫秒为单位。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览