解锁开源模型高性能服务：SGLang Runtime 应用场景与实践

oldpan博客 · 公众号 · · 2024-08-01 09:01

文章预览

01 引言 SGLang 是一个用于大型语言模型和视觉语言模型的推理框架。基于并增强了多个开源 LLM 服务引擎（包括LightLLM、vLLM和Guidance ）的许多优秀设计。SGLang 利用了FlashInfer注意力性能 CUDA 内核，并集成了受gpt-fast启发的 torch.compile 。此外，SGLang 还引入了RadixAttention等创新技术，用于自动 KV 缓存重用和压缩状态机，用于快速约束解码。SGLang 以其高效的批处理调度程序而闻名，该调度程序完全用 Python 实现。SGLang 高效的基于 Python 的批处理调度程序具有良好的扩展性，通常可以匹敌甚至超越用 C++ 构建的闭源实现。项目开源地址： https://github.com/sgl-project/sglang 近期，SGLang发布的benchmark显示，在A100 GPU上的许多测试场景中，SGLang性能优于 vLLM，在 Llama-70B 上的吞吐量高达 3.1 倍。如下为SGLang 官方提供的部分测试benchmark。 1 x A100 (bf16) 上的 Llama-8B 从小模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

龙说天下 · 崩了，海参市场暴雷了

14 小时前

龙说天下 · 中方作出决定：采取反制措施！

2 天前

医药魔方 · 17.1亿美元！艾伯维引进明济生物临床前TL1A单抗

6 月前

中电工程国际公司 · 中电工程国际公司参加吉尔吉斯斯坦能源投资论坛

6 月前

简乐尚博 · 北美市场约占全球市场份额的40%，是名义雇主服务的主要市场

5 月前

东莞本地宝 · 今日起，东莞这座跨河大桥临时通车→

2 月前