主要观点总结
本文介绍了大语言模型LLM的推理引擎的发展状况,现在主流方案收敛到了开源的vLLM和半闭源的TensorRT-LLM。文章还介绍了vLLM和SGLang的特点及优势,包括其技术创新、性能、易用性、开源社区经营、多硬件支持等方面。另外,文章也提到了大模型推理引擎的发展阶段和vLLM的进化压力,以及SGLang对LLM场景需求的探索。
关键观点总结
关键观点1: 大语言模型LLM的推理引擎发展
主流方案收敛到开源的vLLM和半闭源的TensorRT-LLM。
关键观点2: vLLM的特点及优势
vLLM是基于python开发的,代码简洁架构清晰,灵活地满足了二次开发的需求。它率先享受了Paged Attention技术创新的红利,带来了初始流量。此外,vLLM的PA kernel虽然用cuda开发,但是其余部分都是pytorch开发,包括Batch调度、模型定义、并行推理等,显著增加了灵活性,降低了开发者参与的门槛。
关键观点3: SGLang的特点及优势
SGLang采用了编译器方式的设计,当输入和输出是多对多的时,有很多Lazy方式来优化调度的空间。它采用了Efficient KV Cache Reuse with RadixAttention、Efficient Constrained Decoding with Compressed Finite State Machine和Efficient Endpoint Calling with API Speculative Execution等优化技术,可以显著加速LLM Program的计算量。
关键观点4: 大模型推理引擎的发展阶段
大模型推理引擎的发展进入了关键的调整期,定制集群的分离式架构出现,LLM的用法更加复杂,催生了LLM Programs使用范式。此外,非NVIDIA的NPU需要新的系统架构来充分挖掘与利用。
关键观点5: vLLM的进化压力
以vLLM为代表的开源LLM推理引擎正面临着前所未有的进化压力。
文章预览
原文:https://zhuanlan.zhihu.com/p/711378550 大语言模型LLM的推理引擎经过一年时间发展,现在主流方案收敛到了开源的vLLM和半闭源的TensorRT-LLM。 TRT-LLM基于C++开发,有NV算子开发黑魔法加持,在其重点支持的场景里,性能可以做到极致。vLLM基于python开发,代码简洁架构清晰,和开源互动紧密,灵活地满足了二次开发的需求。比如,最近流行的分离式架构,比如Sarathi-Serve,Mooncake等都是基于vLLM。 vLLM时代和时代中的vLLM 纵观古今,vLLM算是现象级的开源项目。这个自UCB的项目,从一篇Paged Attention技术论文作为起点,逐渐演化为惠及全球大模型开发者的开源产品。时势造英雄,英雄造时势,两个原因相辅相成,成就了vLLM。 技术创新:Paged Attention(PA)创新性解决了高吞吐场景下的性能问题,vLLM率先享受了这项技术进步的红利,带来了初始流量。 兼顾性能和易
………………………………