专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
今天看啥  ›  专栏  ›  Ai fighting

LLM推理加速4:微软新发布MInference/FlashAttention-3/EAGLE-2/Q-Sparse

Ai fighting  · 公众号  ·  · 2024-09-10 23:02

文章预览

MInference Million-Tokens Prompt Inference for LLMs https://github.com/microsoft/MInference MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention MInference是微软发布的一个针对超长上下文的LLM加速方法 MInference 主要优化点在于利用了稀疏注意力加速了prefilling耗时。 MInference原理  欢迎加入自动驾驶实战群 介绍 在A100上使用llama-3-8B处理30w token,prefilling阶段需要6分钟。如果处理1M token,则需要30min。self-attn耗时占prefilling阶段总耗时的90%。因此需要优化attn计算。 基于稀疏attention的想法。将attention分成了A形模式、垂直斜杠模式和块稀疏模式。引入了一种核感知搜索方法来为每个头部分配最优的注意模式,根据每个头部的指定模式和特定输入为每个头部构建动态稀疏掩模。在获得动态稀疏掩码后,使用了针对上述三种稀疏模式开发的三个优化的GPU内核。这些内 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览