专栏名称: 瓦力算法学研所

我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势，以及如何应用这些技术来解决实际问题，探索每一项技术落地的可行性方案。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

最全LLM性能优化总结

瓦力算法学研所 · 公众号 · · 2024-12-05 10:00

文章预览

技术总结专栏作者：tangwang LLM性能优化总结。下面是一个快捷目录。一、MHA结构优化（效果有损） 1. MQA（Multi-Query Attention） 2. GQA（Grouped-Query Attention） 3. MLA（Multi-head Latent Attention） 4. SWA(sliding window attention) 5. 线性attention 二、MHA工程优化（效果无损） 1. KV cache 2. online softmax 3. Flash attention 4. Page attention 5. Ring attention 6. striped attention 三、FFN部分的优化 1. MoE 四、微调五、训练相关 1. 混合精度 2. 并行、调度、训练框架 3. Megatron LM 4. ZeRO 5. offload 六、推理相关一、MHA结构优化（效果有损） KV Cache的大小取决于模型大小（dim和layers) 和序列长度。为了尽可能的支持更大的模型、或者更长的序列，就需要对kv 进行压缩，下面列举一些方法对MHA的参数量进行压缩，从而对kv Cache进行压缩。对上述计算量的说明： 1. MQA（Multi-Query Attention）多组Q，共享K、V， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博