解锁开源模型高性能服务：SGLang Runtime 应用场景与实践

魔搭ModelScope社区 · 公众号 · · 2024-07-30 18:35

文章预览

01 引言 SGLang 是一个用于大型语言模型和视觉语言模型的推理框架。基于并增强了多个开源 LLM 服务引擎（包括LightLLM、vLLM和Guidance ）的许多优秀设计。SGLang 利用了FlashInfer注意力性能 CUDA 内核，并集成了受gpt-fast启发的 torch.compile 。此外，SGLang 还引入了RadixAttention等创新技术，用于自动 KV 缓存重用和压缩状态机，用于快速约束解码。SGLang 以其高效的批处理调度程序而闻名，该调度程序完全用 Python 实现。SGLang 高效的基于 Python 的批处理调度程序具有良好的扩展性，通常可以匹敌甚至超越用 C++ 构建的闭源实现。项目开源地址： https://github.com/sgl-project/sglang 近期，SGLang发布的benchmark显示，在A100 GPU上的许多测试场景中，SGLang性能优于 vLLM，在 Llama-70B 上的吞吐量高达 3.1 倍。如下为SGLang 官方提供的部分测试benchmark。 1 x A100 (bf16) 上的 Llama-8B 从小模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博