专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
地刊速览  ·  Nat. ... ·  3 天前  
地刊速览  ·  Nat. ... ·  3 天前  
今天看啥  ›  专栏  ›  极市平台

图解大模型计算加速系列:vLLM源码解析3,Prefix Caching

极市平台  · 公众号  ·  · 2024-07-06 22:41
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨大猿搬砖简记 来源丨大猿搬砖简记 编辑丨极市平台 极市导读   详解Prefix Caching的概念和实现方式,以及它是如何在vLLM中节省显存和减少重复计算的。  >> 加入极市CV技术交流群,走在计算机视觉的最前沿 前文回顾: 图解大模型计算加速系列:vLLM源码解析1,整体架构 图解大模型计算加速系列:vLLM源码解析2,调度器策略(Scheduler) 图解大模型计算加速系列:vLLM源码解析3,块管理器(BlockManager)上篇 【全文目录如下】 一、两种不同的BlockAllocator 二、物理块和逻辑块的结构 三、prefill阶段的物理块分配方法 3.1 allocate函数入口 3.2 计算物理块hash值的方法 3.3 使用LRUEvictor管理物理块分配细节 3.4 再探LRUEvictor,理解“prefix” 四、decode阶段的物理块分配方法 4.1 整体流程 4.2 append_slots入口函数 4.3 如何添加一个新物理块 4.4 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览