文章预览
技术总结专栏 作者:tangwang LLM性能优化总结。 下面是一个快捷目录。 一、MHA结构优化(效果有损) 1. MQA(Multi-Query Attention) 2. GQA(Grouped-Query Attention) 3. MLA(Multi-head Latent Attention) 4. SWA(sliding window attention) 5. 线性attention 二、MHA工程优化(效果无损) 1. KV cache 2. online softmax 3. Flash attention 4. Page attention 5. Ring attention 6. striped attention 三、FFN部分的优化 1. MoE 四、微调 五、训练相关 1. 混合精度 2. 并行、调度、训练框架 3. Megatron LM 4. ZeRO 5. offload 六、推理相关 一、MHA结构优化(效果有损) KV Cache的大小取决于模型大小(dim和layers) 和序列长度。 为了尽可能的支持更大的模型、或者更长的序列,就需要对kv 进行压缩, 下面列举一些方法对MHA的参数量进行压缩,从而对kv Cache进行压缩。 对上述计算量的说明: 1. MQA(Multi-Query Attention) 多组Q,共享K、V,
………………………………