文章预览
论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略,以获取高效的 Transformer 架构。在训练过程中逐步将 LayerNorm 替换为重参数化批归一化,以实现无损准确率,同时在推理阶段利用 BatchNorm 的高效优势。此外,论文设计了一种简化的线性注意力机制,其在计算成本较低的情况下达到了与其他线性注意力方法可比的性能。 来源:晓飞的算法工程笔记 公众号 论文: SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization 论文地址:https://arxiv.org/abs/2405.11582 论文代码:https://github.com/xinghaochen/SLAB Introduction transformer 架构最初引入用于自然语言处理任务,迅速成为语言模型领域的杰出模型。随着 Vision Transformer ( ViT )的引入,其影响力显著扩展,展示了基于 transformer 的架构的有效性和多样性。这些架构在
………………………………