专栏名称: ChaosstuffAI
数字的美学,创意的源泉。
目录
相关文章推荐
今天看啥  ›  专栏  ›  ChaosstuffAI

AI 开发者周刊#006:“ 我没有大模型经验,可以给个机会吗?”

ChaosstuffAI  · 公众号  ·  · 2024-08-23 19:26

文章预览

这里分享对开发者有用的人工智能技术和信息,每周五发布。 前沿技术 KVQuant [1] LLMs在文档分析和总结等应用中需要处理大量上下文信息时,KV缓存激活成为推理过程中内存消耗的主要因素。为了压缩KV缓存激活,量化是一种有效的方法,但现有的解决方案在极低精度(如低于 4 位)下无法准确表示激活。KVQuant方法通过引入以下几种新颖的量化技术来解决这一问题: Per-Channel Key Quantization:通过调整沿着哪个维度对 Key 激活进行量化,以更好地匹配分布。 Pre-RoPE Key Quantization:在应用旋转位置嵌入(RoPE)之前对 Key 激活进行量化,以减轻量化过程中的影响。 Non-Uniform KV Cache Quantization:为每一层衍生出基于敏感性的非均匀数据类型,以更好地表示分布。 Per-Vector Dense-and-Sparse Quantization:对每个向量的异常值进行分离处理,以最小化量化范围的偏差。 KVQu ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览