专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

AWQ:适合端侧的 4-bit 大语言模型权重量化|大模型轻量化系列解读 (二)

arXiv每日学术速递  · 公众号  ·  · 2024-12-16 12:18
    

文章预览

作者丨科技猛兽 编辑丨极市平台 导读   并非 LLM 中的所有权重都同等重要。仅保护 1% 的 salient 权重可以大大减少量化误差。 太长不看版 大语言模型 4-bit 权重后训练量化方案,以及专为 4-bit On-Device LLM/VLMs 定制的推理框架 TinyChat。 大语言模型 (LLM) 已经改变了许多 AI 应用。On-device LLM 也变得越来越重要:在边缘设备上本地运行 LLM 可以降低云计算成本,保护用户的隐私。然而,巨大的模型尺寸以及有限的硬件资源为部署带来了重大的挑战。本文提出了激活感知权重量化方法 (Activation-aware Weight Quantization, AWQ),一种硬件友好的 LLM 低 bit 权重量化方法。 AWQ 发现,并非 LLM 中的所有权重都同等重要。仅保护 1% 的 salient 权重可以大大减少量化误差。为了识别 salient 的 weight channel,应该参考 activation 而不是 weight 的分布。为了避免硬件效率低下的混合精度量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览