文章预览
↑ 点击 蓝字 关注极市平台 作者丨科技猛兽 编辑丨极市平台 极市导读 本文可以看做是 QAT 对 LLM 的第一个成功实践,得到准确的 4-bit 量化 LLM。作者还同时量化了 KV cache,weight 和 activation,这对于缓解长序列生成的吞吐量瓶颈至关重要。这些是通过无数据蒸馏方法实现的。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长不看版 采用 QAT 量化 LLM 的首个成功实践。 量化方案: Weight: Per-channel, Activation: Per-token, KV cache: Per-token 一些 后训练量化 (Post-Training Quantization, PTQ) 方法已应用于大语言模型 (LLM),并在 8-bit 设置下表现良好。本文发现这些方法在更低比特的设置中会出现严重损坏。因此,本文研究使用 量化感知训练 (Quantization-Aware Training, QAT) 方法,以进一步推动量化水平。 本文还提出了一种 Data-free 的知识蒸馏方案,利用
………………………………