专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaLLM

SGLang 支持Flash Attention V3 Backend

GiantPandaLLM  · 公众号  · 3D  · 2025-03-26 17:18
    

文章预览

我的课程笔记,欢迎关注:https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/cuda-mode 。主要是LLM和cuda相关的 0x0 前言 最近SGLang在 https://github.com/sgl-project/sglang/pull/4356 中支持page_size>1的KV Cache Allocator之后让框架更加灵活,可以让用户接入新的Attention Backend,FlashMLA等先进特性。然后LinkedIn的几个小伙伴在SGLang中快速支持了FlashAttention V3的Backend,详情可以看:https://github.com/sgl-project/sglang/issues/4709 ,做了一个很好的示范。我这里尝试根据对SGLang支持Flash Attention V3的方法进行解读,如果大家有其它的Attention Backend需要对接,也可以参考他们的工作。 0x1. 效果 从Llama3的end2end测试结果来看基于Flash Attention V3的Backend和使用默认的FlashInfer的Backend差距不是很大,不过FA3支持FP8的Attention,后面可以期待一下支持后的性能。此外,这个支持比较早期,只支持Page Size=1 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览