贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

FightingCV · 公众号 · · 2024-07-29 09:00

文章预览

关注“ FightingCV ”公众号回复“ AI ”即可获得超100G人工智能的教程点击进入→ FightingCV交流群用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型参数量很大，很多开发者都关心一个问题：怎么提高模型的推理速度？时隔才两天，LMSYS Org 团队就出手了，推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时，它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下（运行 Llama 系列模型），它的吞吐量甚至能达到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。 LMSYS Org 团队是一个由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学的学生与教职员工共同组建的公开性质的研究团体。他们开发的大模型评测平台 ——Chatbot A ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博