ICML 2024 | 无需LayerNorm简化Attention，精度无损推理效率大幅提升

数据派THU · 公众号 · 大数据 · 2024-07-01 17:00

文章预览

来源：PaperWeekly ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 本文约1600字，建议阅读 5 分钟本文介绍了 Transformer 结构中的标准化层和注意力机制两个模块的优化策略进行了深入探索。 Transformer 已经成为了语言和视觉任务中常用的基础架构之一。然而，由于 Transformer 结构高计算开销的影响，其在端侧等资源受限设备中的应用依然面临很大的挑战。我们对 Transformer 结构中的标准化层和注意力机制两个模块的优化策略进行了深入探索，从而构建一个高效的 Transformer 结构。其中，LayerNorm 作为 Transformer 结构中常用的标准化层，但模型推理时仍需计算数据的统计值，导致了推理的低效。我们提出了渐进式的 LayerNorm 替换策略，并对标准的 BatchNorm 进行了改进以更好地取代 LayerNorm 层。同时，我们采用了一种简单高效的线性注意力模块（Simplified Linear Attention）， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博