专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

50s完成7B模型量化,4bit达到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral

量子位  · 公众号  · AI  · 2024-11-07 18:05

文章预览

DuQuant团队 投稿 量子位 | 公众号 QbitAI 消除激活值(outliers),大语言模型低比特量化有新招了 —— 自动化所、清华、港城大团队最近有一篇论文入选了 NeurIPS 2024 (Oral Presentation) ,他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。 简单理解,在大语言模型(LLM)中,有一些中间层输出的数值(激活值 Activation)会变得非常大,它们被称为“outliers(离群值)”,这些 outliers给模型量化带来了挑战。 补充一下,量化可以将模型中的数值从浮点数转换为整数,以减少模型的大小和计算需求。 而一旦在量化过程中存在大量outliers,会导致量化后的模型性能下降。 明白了这层道理, 我们再来看他们团队的一项名为DuQuant的新研究。 首先, 他们发现在LLM的前馈网络 (FFN) 模块中的 down_proj层 , 存在明显的 Massive Outliers (非 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览