专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

最轻最快 ViT ,让你知道 Transformer 可以轻量化到什么程度 ?

AIWalker  · 公众号  ·  · 2024-08-07 22:00

文章预览

关注 「 AIWalker 」 并 星标 从此AI不迷路 来源于 AI视界引擎 ,作者 AI 引擎 在本文中,作者探讨了一种策略,该策略使用专家混合(Mixture-of-Experts, MoE)来简化而非增强视觉 Transformer 。MoE层中的每个专家都是一个SwiGLU前馈网络,不采用复杂的注意力或卷积机制。 逐深度缩放被应用于逐步减少隐藏层的大小,并且分阶段增加专家的数量。使用了分组 Query 注意力。作者研究了在小数据集上进行预训练和不进行预训练的所提方法,并探讨了在这种规模下迁移学习是否有效。作者发现,即使参数量仅有0.67M,该架构也具有竞争力。 1 Introduction 在计算机视觉的实际应用中,例如边缘智能,小型且性能高效的模型仍然被优先考虑以克服计算挑战[1]。视觉 Transformer (ViTs)[2]取得了显著成果,但当模型大小和数据集较小时,其性能会大幅下降[3]。因此,有研究开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览