文章预览
这里分享对开发者有用的人工智能技术和信息,每周五发布。 前沿技术 KVQuant [1] LLMs在文档分析和总结等应用中需要处理大量上下文信息时,KV缓存激活成为推理过程中内存消耗的主要因素。为了压缩KV缓存激活,量化是一种有效的方法,但现有的解决方案在极低精度(如低于 4 位)下无法准确表示激活。KVQuant方法通过引入以下几种新颖的量化技术来解决这一问题: Per-Channel Key Quantization:通过调整沿着哪个维度对 Key 激活进行量化,以更好地匹配分布。 Pre-RoPE Key Quantization:在应用旋转位置嵌入(RoPE)之前对 Key 激活进行量化,以减轻量化过程中的影响。 Non-Uniform KV Cache Quantization:为每一层衍生出基于敏感性的非均匀数据类型,以更好地表示分布。 Per-Vector Dense-and-Sparse Quantization:对每个向量的异常值进行分离处理,以最小化量化范围的偏差。 KVQu
………………………………