今天看啥  ›  专栏  ›  大猿搬砖简记

图解大模型计算加速系列:vLLM源码解析3,Prefix Caching

大猿搬砖简记  · 公众号  ·  · 2024-07-05 14:24
    

文章预览

大家好,今天我们继续vllm源码的解析,一起来看下它最近总是被频繁提起、也是较不好理解的一个创新点:Prefix Caching(本文同时也是BlockManager的下篇,虽然标题没有提及) 说一些题外话,之前写vllm源码解读的文章,阅读量不是很高,再加上写这类型文章真得耗时耗力耗头发(自己看懂代码容易,但是给别人讲懂很难,把代码转变成一篇有逻辑的、兼顾全局和细节的文章就更难了。特别是mlsys的代码,懂的都懂),因此我一度丧失了对它的写作热情😢。但是这段日子打开尘封已久的私信,竟然看到有很多朋友在催更,所以动力又回来了些。不过这个系列后续的更新节奏依然还是比较慢(我的大部分文章都是在午休时间见缝插针写的),还请大家见谅哈。 【全文目录如下】 一、两种不同的BlockAllocator 二、物理块和逻辑块的结构 三、prefill阶段的物 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览