ICML 2024 | 简化Transformer，华为提出无需LayerNorm的Attention，精度无损推理效率大幅提升

小白学视觉 · 公众号 · · 2024-09-07 10:05

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达 ©作者 | 陈醒濠转载自：PaperWeekly Transformer 已经成为了语言和视觉任务中常用的基础架构之一。然而，由于 Transformer 结构高计算开销的影响，其在端侧等资源受限设备中的应用依然面临很大的挑战。我们对 Transformer 结构中的标准化层和注意力机制两个模块的优化策略进行了深入探索，从而构建一个高效的 Transformer 结构。其中，LayerNorm 作为 Transformer 结构中常用的标准化层，但模型推理时仍需计算数据的统计值，导致了推理的低效。我们提出了渐进式的 LayerNorm 替换策略，并对标准的 BatchNorm 进行了改进以更好地取代 LayerNorm 层。同时，我们采用了一种简单高效的线性注意力模块（Simplified Linear Attention），来获得更强的模型性能。我们将这两种策略的结合简称为 SLAB ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博