如何看待「大厂才能做好大模型」这一观点？企业想抓住大模型风口，应怎么选？

深度学习与NLP · 知乎回答 · AI · 2024-06-20 14:31

文章预览

原文：BentoML 工程团队翻译：OpenMMLab 原文链接： https://www. bentoml.com/blog/benchm arking-llm-inference-backends 选择适宜的推理后端来服务大语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验，还可以通过 token 的高生成率和资源利用率降本增效。如今，开发者可以选择多种由知名研究和行业团队创建的推理后端。但是，为特定用例选择最佳后端可能具有挑战性。为了帮助开发者做出明智的决策，BentoML 工程团队在 BentoCloud 上，分别使用 vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI 搭建了 Llama 3 推理服务，并对推理性能进行了全面的基准测试。这些推理后端使用以下两个关键指标进行评估： Time to First Token (TTFT) ：首 token 延时，衡量从发送请求到生成第一个 token 所花费的时间，以毫秒为单位。对于需要即时反馈的应用（如交互式 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博