专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

LLM性能优化中的一些概念扫盲

吃果冻不吐果冻皮  · 公众号  ·  · 2024-11-16 13:09

文章预览

原文:https://zhuanlan.zhihu.com/p/4525257731 一、MHA结构优化(效果有损) KV Cache的大小取决于模型大小(dim和layers) 和序列长度。 为了尽可能的支持更大的模型、或者更长的序列,就需要对kv 进行压缩 ,下面列举一些方法对MHA的参数量进行压缩,从而对kv Cache进行压缩。 MQA(Multi-Query Attention) 多组Q,共享K、V,直接将KV Cache减少到了原来的1/h。 为了模型总参数量的不变,通常会相应地增大FFN/GLU的规模,这也能弥补一部分效果损失。 使用MQA的模型包括 PaLM、 Gemini 等。 示意图见下图右侧: GQA(Grouped-Query Attention) 示意图见 上图 中。 是 MQA 和 MHA 的折中。 使用GQA的有LLaMA 2、Code LLaMA等。 MLA(Multi-head Latent Attention) DeepSeek-V2 使用了低秩投影压缩 KV Cache 的大小,即 MLA 。 详见  缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA - 科学空间|Scientific Spaces [1] 示意图见 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览