主要观点总结
BitNet系列的原班人马推出了新一代架构BitNet a4.8,启用了4位激活值,支持3 bit KV cache,为1 bit大模型带来了更高的效率。该架构采用混合量化和稀疏化策略,以减轻异常通道引入的量化误差。BitNet a4.8模型在相同的训练成本下实现了与前代BitNet b1.58相当的性能,并因为4位内核的计算红利实现了更快的推理速度。此外,该模型还有助于大规模LLM的部署和推理效率的提升。
关键观点总结
关键观点1: BitNet a4.8的特点和优势
BitNet a4.8为1 bit大模型启用了4位激活值,支持3 bit KV cache;采用混合量化和稀疏化策略,减轻异常通道引入的量化误差;在相同训练成本下实现高性能,并具备快速推理速度。
关键观点2: BitNet a4.8的模型架构
BitNet a4.8采用了与BitNet b1.58相同的布局,使用BitLinear替换注意力(MHA)和前馈网络(FFN)中的线性投影,从头开始学习1.58 bit权重。对于激活值,采用混合量化和稀疏化策略。
关键观点3: BitNet a4.8的实验结果
BitNet a4.8在语言模型困惑度和任务的平均准确性方面与LLaMA相当,相比BitNet b1.58,BitNet a4.8的平均精度几乎没有损失。此外,BitNet a4.8的稀疏性明显高于BitNet b1.58和LLaMA,表现出高激活稀疏性。
文章预览
新智元报道 编辑:alan 【新智元导读】 近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值,支持3 bit KV cache,效率再突破。 量化到1 bit的LLM还能再突破? 这次,他们对激活值下手了! 近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值: 论文地址:https://arxiv.org/pdf/2411.04965 众所周知,激活值量化通常是比较难办的。 本次的BitNet a4.8采用混合量化和稀疏化策略,来减轻异常通道引入的量化误差。 简单来说就是,对注意力层和FFN层的输入采用4位量化,同时用8位整数稀疏化中间状态。 大量实验表明,BitNet a4.8在相同的训练成本下,实现了与前代BitNet b1.58相当的性能,同时因为可以吃到4位(INT4/FP4)内核的计算红利,实现了更快的推理速度。 BitNet a4.8仅激活55%的参数,并支
………………………………