专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

华为提出可解释的长序列KV压缩算法:离线压缩3倍,与FA兼容

PaperWeekly  · 公众号  · 科研  · 2024-09-25 13:05

文章预览

动机和背景 在大语言模型中的应用场景中,长序列场景中的 KV Cache 缓存的显存占用一直是一个棘手的问题。这是因为 KV Cache 缓存需要保存所有词元的 key 与 value 的空间投射,以便于节省后续解码时的计算复杂度。 然而,随着输入序列的增长,KV Cache 缓存所占用的空间也会不断增加,总体达到 O(seq_len)的空间复杂度,其导致显存的消耗迅速增加(极端情况下 KV Cache 与权重的显存占比可达到 9:1),进而影响模型的性能和效率。 目前业界流行的 KV Cache 压缩算法均为实时压缩,即实时地计算一些指标:注意力分数(与 flashattention 不兼容)或者 topk 判断稀疏模式,对推理速度均有非常高的负面影响,在实际部署中不适用。因此,静态压缩 KV Cache 是一条非常有实用价值的探索路线,也是本工作的主攻方向。 本工作的动机来源于 Anthropic 2022 年的论文 In- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览