贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心 · 公众号 · AI · 2024-07-27 12:38

文章预览

机器之心报道编辑：张倩用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型参数量很大，很多开发者都关心一个问题：怎么提高模型的推理速度？时隔才两天，LMSYS Org 团队就出手了，推出了全新的 SGLang Runtime v0.2。这是一个用于 LLM 和 VLM 的通用服务引擎。在运行 Llama 3.1 405B 时，它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM。在某些情况下（运行 Llama 系列模型），它的吞吐量甚至能达到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。 LMSYS Org 团队是一个由加州大学伯克利分校、加州大学圣地亚哥分校以及卡内基梅隆大学的学生与教职员工共同组建的公开性质的研究团体。他们开发的大模型评测平台 ——Chatbot Arena 已经成为检验大模型能力的重要平台，也被认为是一种相对公平的评 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

昨天

爱可可-爱生活 · 【PySpur：一款专注于推理计算流水线的集成开发环境，让开发者-20241122200400

昨天

爱可可-爱生活 · 【spaCy Layout：一款能够处理PDF、Word文档等多-20241119140525

5 天前

宝玉xp · Cursor 应用案例：拿到需求后用 Cursor 直接出原型，-20241118105129

6 天前

爱可可-爱生活 · 本文通过将语言模型建模为广义结构方程模型并提出一种新的反事实生成-20241118060436

6 天前

加措上师语录 · 觉悟的勇气：何谓平常心？

3 月前