文章预览
前言 本 文研究了激活属性在预训练过程中的变化,发现Transformer在大多数预训练过程中表现出稀疏激活,同时激活相关性随着训练的进行而不断演变。因此,提出了可切换的稀疏-密集学习(Switchable Sparse-Dense Learning,SSD),在预训练过程中自适应地在基于专家混合(Mixtures-of-Experts, MoE)稀疏训练和传统的密集训练之间切换,充分利用稀疏训练的效率,避免了稀疏训练的静态激活相关性。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 来源: 晓飞的算法工程笔记 仅用于学术分享,若侵权请联系删除 论文: Exploring the Benefit of Activation Sparsity in Pre-training 论文地址:https://arxiv.org/abs/2410.03440 论文代码:https://github.com/thunlp/moefication 创新点 研究了激活属性在预
………………………………