专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

最轻最快 ViT ,Transformer的轻量化可以到达什么程度 ?

江大白  · 公众号  ·  · 2024-07-31 08:00

文章预览

以下文章来源于微信公众号: AI视界引擎 作者: AI引擎 链接:https://mp.weixin.qq.com/s/8Pz09jK6GhqCWRORl4jjhw 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 基于注意力的Transformer网络被广泛用于深度学习任务。 然而,高计算复杂性阻碍了 Transformer 在内存和计算资源有限的设备上的适用性。对此本文提出一种新颖的 专家混合策略实现最轻最快 ViT,该方法在 Cifar100、Cifar10、Flowers102 和 SVHN数据集上表现出色! 论文链接:https://arxiv.org/abs/2407.17783 在本文中,作者探讨了一种策略,该策略使用专家混合(Mixture-of-Experts, MoE)来简化而非增强视觉 Transformer 。MoE层中的每个专家都是一个SwiGLU前馈网络,不采用复杂的注意力或卷积机制。 逐深度缩放被应用于逐步减少隐藏层的大小,并且分阶段增加专家的数量。使用了分组 Query 注意力。作者研究了在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览