专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

ViT的轻量化还能做到什么程度?MoE方法立大功!

极市平台  · 公众号  ·  · 2024-07-31 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 作者丨AI视界引擎 来源丨AI视界引擎 编辑丨极市平台 极市导读   使用专家混合(Mixture-of-Experts, MoE)来简化而非增强视觉 Transformer 。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 在本文中,作者探讨了一种策略,该策略使用专家混合(Mixture-of-Experts, MoE)来简化而非增强视觉 Transformer 。MoE层中的每个专家都是一个SwiGLU前馈网络,不采用复杂的注意力或卷积机制。 逐深度缩放被应用于逐步减少隐藏层的大小,并且分阶段增加专家的数量。使用了分组 Query 注意力。作者研究了在小数据集上进行预训练和不进行预训练的所提方法,并探讨了在这种规模下迁移学习是否有效。作者发现,即使参数量仅有0.67M,该架构也具有竞争力。 1 Introduction 在计算机视觉的实际应用中,例如边缘智能,小型且性能高效的模型仍然 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览