专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

[Prefill优化]图解vLLM Prefix Prefill Triton Kernel

GiantPandaCV  · 公众号  · 3D  · 2024-06-14 10:31
    

文章预览

作者丨DefTruth 来源丨https://zhuanlan.zhihu.com/p/695799736 编辑丨GiantPandaCV 0x00 前言 在上一篇Prefill优化的文章中,已经详细讲解了vLLM Automatic Prefix Caching(Hash RadixAttention)的原理和Cache调度的实现,包括SGLang RadixAttention原理,并且结合图解和代码,详细分析了vLLM中的Hash RadixAttention实现。vLLM中的Hash RadixAttention内容包括:Hash RadixAttention、Hash Prefix Tree、Prefix/Generate 阶段Hash码处理、Prefix + Generated KV Caching的调度逻辑、边界情况思考、vLLM Automatic Prefix Caching在多轮对话中的应用分析以及代码应用实践。本篇,继续深入,讲解Automatic Prefix Caching中用到的Triton Based Prefix Prefill Kernel。 推荐先阅读完上一篇的Automatic Prefix Caching原理,再来阅读本篇的kernel解读。 DefTruth:[Prefill优化][万字] 原理 & 图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化 https://zhuanlan.zhihu.com/p/693556 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览