专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

KV cache压缩时如何权衡Token和Precison?北大、华为工作发现保留更多的Token远比更多的精度重要!

PaperWeekly  · 公众号  · 科研  · 2025-01-10 18:18
    

文章预览

©PaperWeekly 原创 · 作者 |  张介宾 单位 |  北京大学计算语言所 研究方向 |  推理加速 论文标题: More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression 论文作者: Jiebin Zhang, Dawei Zhu, Yifan Song, Wenhao Wu, Chuqiao Kuang, Xiaoguang Li , Lifeng Shang, Qun Liu, Sujian Li 论文链接: https://arxiv.org/pdf/2412.12706 代码链接: https://github.com/zhzihao/QPruningKV 简介 KV cache 技术通过缓存已经计算好的 key、value 向量(KV),大幅减少了推理的时间。然而随着大语言模型(LLM)的窗口长度增长,KV cache 的内存占用成为了推理时候的新瓶颈。 很多工作开始探讨如何压缩 KV cache 的内存。压缩 KV cache 的内存不仅能减少推理时候的内存开销,还可以减少解码时候的时间消耗,因为解码步骤一般是带宽瓶颈的。 现有的 KV cache 压缩工作主要包括 KV Pruning 和 KV Quantization。KV Prun ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览