专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

vLLM源码之框架执行

GiantPandaCV · 公众号 · 3D · 2024-09-02 21:52

主要观点总结

本文介绍了vLLM推理引擎的框架执行流程（v0.1.2），包括其核心技术如PagedAttention和连续批处理技术，并进行了代码级别的分析。vLLM使用PagedAttention技术提升句子生成速度，并包含多个用于实际服务的要素，例如使用Ray Cluster实现多集群环境中的稳定服务，以及利用Megatron LM的并行性处理大型模型和数据。文章详细描述了vLLM的整体架构、使用方式、组件关系、LLMEngine、Worker和Scheduler的执行流程，并解释了PagedAttention的分配和交换策略，以及单查询注意力等关键部分。

关键观点总结

关键观点1: vLLM的框架执行流程

vLLM利用PagedAttention技术提升句子生成速度，并包含多个用于实际服务的要素，如使用Ray Cluster和Megatron LM的并行性。

关键观点2: vLLM的架构与组件

vLLM的架构包括LLMEngine、Worker、Scheduler等组件，用于分布式处理、管理PagedAttention区块和KV Cache，并通过调度器改变生成顺序。

关键观点3: 使用方式

vLLM支持在线和离线两种方式，通过LLM类初始化模型、创建kv cache，并使用generate()函数生成句子。

关键观点4: PagedAttention技术

PagedAttention技术用于提升内存效率，当GPU内存不足时，以交换到CPU内存的方式，稳定管理中间计算过程。

关键观点5: 注意力计算

vLLM对Key和Value值进行注意力计算后，将其存储在缓存中，并对照缓存和生成标记应用单查询注意力。

文章预览

原文：https://zhuanlan.zhihu.com/p/710927181 本文主要介绍vLLM推理引擎的框架执行流程 (v0.1.2)，相关文章： vLLM源码之PagedAttention（持续更新）引用本文内容主要源于： https:// tech.scatterlab.co.kr/v llm-implementation-details/ 。（https://tech.scatterlab.co.kr/vllm-implementation-details/） https:// docs.google.com/present ation/d/1QL-XPFXiFpDBh86DbEegFXBXFXjix4v032GhShbKf3s/edit#slide=id.g24ad94a0065_0_209 ，vLLM的meetup slides （https://docs.google.com/presentation/d/1QL-XPFXiFpDBh86DbEegFXBXFXjix4v032GhShbKf3s/edit#slide=id.g24ad94a0065_0_209）感谢 @lipi 提供该技术博客的原网址。随着 LLM 时代的到来，为服务开发和研究了多种优化方法。今天，我们将分析 vLLM，其性能比 Hugging Face 提高了 24 倍。请注意，本文分析的内容基于 vLLM 刚发布时的实现版本 (v0.1.2) ，因此可能存在一些已更改的部分。其中包含了大量深入乃至代码级别的知 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博