专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

最全LLM性能优化总结

瓦力算法学研所  · 公众号  ·  · 2024-12-05 10:00
    

文章预览

技术总结专栏 作者:tangwang LLM性能优化总结。 下面是一个快捷目录。 一、MHA结构优化(效果有损) 1. MQA(Multi-Query Attention) 2. GQA(Grouped-Query Attention) 3. MLA(Multi-head Latent Attention) 4. SWA(sliding window attention) 5. 线性attention 二、MHA工程优化(效果无损) 1. KV cache 2. online softmax 3. Flash attention 4. Page attention 5. Ring attention 6. striped attention 三、FFN部分的优化 1. MoE 四、微调 五、训练相关 1. 混合精度 2. 并行、调度、训练框架 3. Megatron LM 4. ZeRO 5. offload 六、推理相关 一、MHA结构优化(效果有损) KV Cache的大小取决于模型大小(dim和layers) 和序列长度。 为了尽可能的支持更大的模型、或者更长的序列,就需要对kv 进行压缩, 下面列举一些方法对MHA的参数量进行压缩,从而对kv Cache进行压缩。 对上述计算量的说明: 1. MQA(Multi-Query Attention) 多组Q,共享K、V, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览