一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

无矩阵乘法LLM - 一个来自线性Transformer的视角

深度学习自然语言处理  · 公众号  ·  · 2024-08-14 22:17

文章预览

标题 无矩阵乘法LLM - 一个来自线性Transformer的视角 时间 2024.8.17 周六 上午10:30-11:30 进群 论文:Scalable MatMul-free Language Modeling 链接:https://arxiv.org/pdf/2406.02528 内容大纲    1. 背景:        - 无乘法网络        - 线性注意力机制    2. 无乘法语言模型组件介绍        - 线性无乘法token mixer        - 三值化channel mixer与fused结构    3. 深入分析无乘法token mixer    4. 实验       1. Downstream benchmark       2. Fused BitNet 的速度 引言 矩阵乘法(MatMul)通常是大型语言模型(LLMs)中计算成本最高的部分。随着LLMs的嵌入维度和上下文长度不断扩大,这一成本也在增加。本研究表明,我们可以完全消除LLMs中的MatMul运算,同时在数十亿参数规模上保持强大的性能。     我们的实验显示,所提出的无MatMul模型在至少27亿参数的规模上,其性能可以与需要更多推理内存的最先进Tr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览