文章预览
©PaperWeekly 原创 · 作者 | 张介宾 单位 | 北京大学计算语言所 研究方向 | 推理加速 论文标题: More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression 论文作者: Jiebin Zhang, Dawei Zhu, Yifan Song, Wenhao Wu, Chuqiao Kuang, Xiaoguang Li , Lifeng Shang, Qun Liu, Sujian Li 论文链接: https://arxiv.org/pdf/2412.12706 代码链接: https://github.com/zhzihao/QPruningKV 简介 KV cache 技术通过缓存已经计算好的 key、value 向量(KV),大幅减少了推理的时间。然而随着大语言模型(LLM)的窗口长度增长,KV cache 的内存占用成为了推理时候的新瓶颈。 很多工作开始探讨如何压缩 KV cache 的内存。压缩 KV cache 的内存不仅能减少推理时候的内存开销,还可以减少解码时候的时间消耗,因为解码步骤一般是带宽瓶颈的。 现有的 KV cache 压缩工作主要包括 KV Pruning 和 KV Quantization。KV Prun
………………………………