专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习与NLP

LLM性能优化中的一些概念扫盲

深度学习与NLP  · 公众号  ·  · 2024-11-18 00:00
    

文章预览

原文:https://zhuanlan.zhihu.com/p/4525257731 一、MHA结构优化(效果有损) KV Cache的大小取决于模型大小(dim和layers) 和序列长度。 为了尽可能的支持更大的模型、或者更长的序列,就需要对kv 进行压缩 ,下面列举一些方法对MHA的参数量进行压缩,从而对kv Cache进行压缩。 MQA(Multi-Query Attention) 多组Q,共享K、V,直接将KV Cache减少到了原来的1/h。 为了模型总参数量的不变,通常会相应地增大FFN/GLU的规模,这也能弥补一部分效果损失。 使用MQA的模型包括 PaLM、 Gemini 等。 示意图见下图右侧: GQA(Grouped-Query Attention) 示意图见 上图 中。 是 MQA 和 MHA 的折中。 使用GQA的有LLaMA 2、Code LLaMA等。 MLA(Multi-head Latent Attention) DeepSeek-V2 使用了低秩投影压缩 KV Cache 的大小,即 MLA 。 详见  缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA - 科学空间|Scientific Spaces [1] 示意图见 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览