专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

大模型轻量化系列解读 (三):LLM-QAT:无需数据的 LLM 量化感知训练

极市平台  · 公众号  ·  · 2024-12-19 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨科技猛兽 编辑丨极市平台 极市导读   本文可以看做是 QAT 对 LLM 的第一个成功实践,得到准确的 4-bit 量化 LLM。作者还同时量化了 KV cache,weight 和 activation,这对于缓解长序列生成的吞吐量瓶颈至关重要。这些是通过无数据蒸馏方法实现的。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 太长不看版 采用 QAT 量化 LLM 的首个成功实践。 量化方案: Weight: Per-channel, Activation: Per-token, KV cache: Per-token 一些 后训练量化 (Post-Training Quantization, PTQ) 方法已应用于大语言模型 (LLM),并在 8-bit 设置下表现良好。本文发现这些方法在更低比特的设置中会出现严重损坏。因此,本文研究使用 量化感知训练 (Quantization-Aware Training, QAT) 方法,以进一步推动量化水平。 本文还提出了一种 Data-free 的知识蒸馏方案,利用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览