专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

SGLang：LLM推理引擎发展新方向

GiantPandaCV · 公众号 · 3D · 2024-07-30 21:44

主要观点总结

本文介绍了大语言模型LLM的推理引擎的发展状况，现在主流方案收敛到了开源的vLLM和半闭源的TensorRT-LLM。文章还介绍了vLLM和SGLang的特点及优势，包括其技术创新、性能、易用性、开源社区经营、多硬件支持等方面。另外，文章也提到了大模型推理引擎的发展阶段和vLLM的进化压力，以及SGLang对LLM场景需求的探索。

关键观点总结

关键观点1: 大语言模型LLM的推理引擎发展

主流方案收敛到开源的vLLM和半闭源的TensorRT-LLM。

关键观点2: vLLM的特点及优势

vLLM是基于python开发的，代码简洁架构清晰，灵活地满足了二次开发的需求。它率先享受了Paged Attention技术创新的红利，带来了初始流量。此外，vLLM的PA kernel虽然用cuda开发，但是其余部分都是pytorch开发，包括Batch调度、模型定义、并行推理等，显著增加了灵活性，降低了开发者参与的门槛。

关键观点3: SGLang的特点及优势

SGLang采用了编译器方式的设计，当输入和输出是多对多的时，有很多Lazy方式来优化调度的空间。它采用了Efficient KV Cache Reuse with RadixAttention、Efficient Constrained Decoding with Compressed Finite State Machine和Efficient Endpoint Calling with API Speculative Execution等优化技术，可以显著加速LLM Program的计算量。

关键观点4: 大模型推理引擎的发展阶段

大模型推理引擎的发展进入了关键的调整期，定制集群的分离式架构出现，LLM的用法更加复杂，催生了LLM Programs使用范式。此外，非NVIDIA的NPU需要新的系统架构来充分挖掘与利用。

关键观点5: vLLM的进化压力

以vLLM为代表的开源LLM推理引擎正面临着前所未有的进化压力。

文章预览

原文：https://zhuanlan.zhihu.com/p/711378550 大语言模型LLM的推理引擎经过一年时间发展，现在主流方案收敛到了开源的vLLM和半闭源的TensorRT-LLM。 TRT-LLM基于C++开发，有NV算子开发黑魔法加持，在其重点支持的场景里，性能可以做到极致。vLLM基于python开发，代码简洁架构清晰，和开源互动紧密，灵活地满足了二次开发的需求。比如，最近流行的分离式架构，比如Sarathi-Serve，Mooncake等都是基于vLLM。 vLLM时代和时代中的vLLM 纵观古今，vLLM算是现象级的开源项目。这个自UCB的项目，从一篇Paged Attention技术论文作为起点，逐渐演化为惠及全球大模型开发者的开源产品。时势造英雄，英雄造时势，两个原因相辅相成，成就了vLLM。技术创新：Paged Attention（PA）创新性解决了高吞吐场景下的性能问题，vLLM率先享受了这项技术进步的红利，带来了初始流量。兼顾性能和易 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博