文章预览
标题 无矩阵乘法LLM - 一个来自线性Transformer的视角 时间 2024.8.17 周六 上午10:30-11:30 进群 论文:Scalable MatMul-free Language Modeling 链接:https://arxiv.org/pdf/2406.02528 内容大纲 1. 背景: - 无乘法网络 - 线性注意力机制 2. 无乘法语言模型组件介绍 - 线性无乘法token mixer - 三值化channel mixer与fused结构 3. 深入分析无乘法token mixer 4. 实验 1. Downstream benchmark 2. Fused BitNet 的速度 引言 矩阵乘法(MatMul)通常是大型语言模型(LLMs)中计算成本最高的部分。随着LLMs的嵌入维度和上下文长度不断扩大,这一成本也在增加。本研究表明,我们可以完全消除LLMs中的MatMul运算,同时在数十亿参数规模上保持强大的性能。 我们的实验显示,所提出的无MatMul模型在至少27亿参数的规模上,其性能可以与需要更多推理内存的最先进Tr
………………………………