专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间

数据派THU  · 公众号  · 大数据  · 2024-08-17 17:00
    

文章预览

来源 :DeepHub IMBA 本文 约9500字 ,建议阅读 15+ 分钟 本文中介绍了两个在 ViT 类型架构中集成 BatchNorm 的模型。 以Vision Transformer (ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大小,推理速度较慢。因此研究更快训练和推理Vision Transformer就变成了一个重要的方向。 在以前我们都是知道,Batch Normalization(以下简称BN)的方法最早由Ioffe 在2015年提出,主要用于解决在深度学习中产生的ICS(Internal Covariate Shift)的问题。若模型输入层数据分布发生变化,则模型在这波变化数据上的表现将有所波动,输入层分布的变化称为Covariate Shift,解决它的办法就是常说的Do ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览