LLM推理后端性能大比拼，来自BentoML团队的深度评估！

oldpan博客 · 公众号 · · 2024-06-13 19:57

文章预览

本文转自 openmmlab 本文翻译自 BentoML 工程团队原文链接：https://www.bentoml.com/blog/benchmarking-llm-inference-backends 选择适宜的推理后端来服务大型语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验，还可以通过 token 的高生成率和资源利用率降本增效。如今，开发者可以选择多种由知名研究和行业团队创建的推理后端。但是，为特定用例选择最佳后端可能具有挑战性。为了帮助开发者做出明智的决策， BentoML 工程团队在 BentoCloud 上，分别使用 vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI 搭建了 Llama 3 推理服务，并对推理性能进行了全面的基准测试。这些推理后端使用以下两个关键指标进行评估： Time to First Token (TTFT) ：首 token 延时，衡量从发送请求到生成第一个 token 所花费的时间，以毫秒为单位。对于需要即时反馈的应用（ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

何乐不为 · 速度！积分大放水，下手不犹豫！

18 小时前

少数派 · 城市漫步指南：济州岛，需要好天气

21 小时前

中国旅游报 · 过境免签新政发布、多地年夜饭预订火爆 ……本周热点请关注

3 天前

营销案例精选 · 浏阳文旅烟花惊呆老外，网友：宣传部加鸡腿！

3 天前

精明常旅客 · 携程换东航加赠200%！4000分换600东航！冲！

3 天前

环保人 · 硝酸酸洗有没有酸雾？脱硝用碱液吸收不灵？那去除硝酸雾废气呢？请看环境部文件明确依据

5 月前

深度学习辣汤小组 · 层级异质结辅助代谢分析进行体外诊断和预后监测

4 月前

上海华略智库 · 规划再度“加码”，这座没有地铁的万亿之城有望圆梦

2 月前