专栏名称: Ai fighting

本公众号主要分享自动驾驶感知实战，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM推理加速4：微软新发布MInference/FlashAttention-3/EAGLE-2/Q-Sparse

Ai fighting · 公众号 · · 2024-09-10 23:02

文章预览

MInference Million-Tokens Prompt Inference for LLMs https://github.com/microsoft/MInference MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention MInference是微软发布的一个针对超长上下文的LLM加速方法 MInference 主要优化点在于利用了稀疏注意力加速了prefilling耗时。 MInference原理欢迎加入自动驾驶实战群介绍在A100上使用llama-3-8B处理30w token，prefilling阶段需要6分钟。如果处理1M token，则需要30min。self-attn耗时占prefilling阶段总耗时的90%。因此需要优化attn计算。基于稀疏attention的想法。将attention分成了A形模式、垂直斜杠模式和块稀疏模式。引入了一种核感知搜索方法来为每个头部分配最优的注意模式，根据每个头部的指定模式和特定输入为每个头部构建动态稀疏掩模。在获得动态稀疏掩码后，使用了针对上述三种稀疏模式开发的三个优化的GPU内核。这些内 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博