文章预览
MInference Million-Tokens Prompt Inference for LLMs https://github.com/microsoft/MInference MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention MInference是微软发布的一个针对超长上下文的LLM加速方法 MInference 主要优化点在于利用了稀疏注意力加速了prefilling耗时。 MInference原理 欢迎加入自动驾驶实战群 介绍 在A100上使用llama-3-8B处理30w token,prefilling阶段需要6分钟。如果处理1M token,则需要30min。self-attn耗时占prefilling阶段总耗时的90%。因此需要优化attn计算。 基于稀疏attention的想法。将attention分成了A形模式、垂直斜杠模式和块稀疏模式。引入了一种核感知搜索方法来为每个头部分配最优的注意模式,根据每个头部的指定模式和特定输入为每个头部构建动态稀疏掩模。在获得动态稀疏掩码后,使用了针对上述三种稀疏模式开发的三个优化的GPU内核。这些内
………………………………