由GQA性能数据异常引发的对MHA，GQA，MQA 在GPU上的感性分析

oldpan博客 · 公众号 · · 2024-07-28 17:27

文章预览

来自代码搬运工链接 https://zhuanlan.zhihu.com/p/708776013?utm_psn=1796564989189943297 为什么用roofline 模型去估计GPU大模型推理性能总是不准？ GQA:"说好的memory bound，我比MHA减少了8倍，为什么性能只增加2倍"？难道GQA MQA 在GPU 上只能省KV cache 的memory？谁削弱了GQA的效果？为什么？？？本着事出反常必有妖，本文不涉及复杂的kernel 的代码，只从感性（profiling）的角度出发，一点一点抽丝剥茧，探索"妖"从哪里来. 特别感谢方博士的指导。 TL;DR 由于篇幅过长，这里简单总结一下，对GPU 熟悉的专家可以跳过正文，小白可以参考我们的分析思路。我们的思路是先分析简单的MHA，主要看NCU 统计的kernel 的Arithmetic Intensity(AI)，算理论的HBM load 是否和NCU 的一致，随后同样的思路分析GQA 和MQA。我们基于vLLM（8a924d2248dedb620eb9a32ca5c9f97ab525aaf5）版本对MHA GQA MQA做了benchmark 测 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

今日闵行 · 当心！这种冬季呼吸道疾病高发→

13 小时前

上海本地宝 · 上海个人住房公积金贷款额度

2 天前

上海本地宝 · 浦东⇌虹桥仅40分钟！上海机场联络线要来了！票价公示→

2 天前

上海发布 · 全球首个5000万级集装箱港口诞生！上海港年集装箱吞吐量再创世界纪录

2 天前

大华那点事 · 紧急避坑！上海突然大量涌现这种特色商店！本想贪便宜，却差点“吃药”...

4 天前

新浪科技 · 【#专家谈平台大数据杀熟# #唯品会被指大数据杀熟#】随着双11-20241016152018

2 月前