最轻最快 ViT ，Transformer的轻量化可以到达什么程度？

江大白 · 公众号 · · 2024-07-31 08:00

文章预览

以下文章来源于微信公众号： AI视界引擎作者： AI引擎链接：https://mp.weixin.qq.com/s/8Pz09jK6GhqCWRORl4jjhw 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读基于注意力的Transformer网络被广泛用于深度学习任务。然而，高计算复杂性阻碍了 Transformer 在内存和计算资源有限的设备上的适用性。对此本文提出一种新颖的专家混合策略实现最轻最快 ViT，该方法在 Cifar100、Cifar10、Flowers102 和 SVHN数据集上表现出色！论文链接：https://arxiv.org/abs/2407.17783 在本文中，作者探讨了一种策略，该策略使用专家混合（Mixture-of-Experts, MoE）来简化而非增强视觉 Transformer 。MoE层中的每个专家都是一个SwiGLU前馈网络，不采用复杂的注意力或卷积机制。逐深度缩放被应用于逐步减少隐藏层的大小，并且分阶段增加专家的数量。使用了分组 Query 注意力。作者研究了在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

广西师乐 · 广西柳州化工技工学校/广西二轻工业管理学校面试资格审查公告！

昨天

墨香中华 · 下元节丨追忆往昔，拥抱美好

昨天

人文社科论文速览 · 【SSCI】教育学期刊《Porta Linguarum》最新论文推送

3 天前

中国教育报 · 教育部发文，部署加强市域产教联合体建设（附第二批国家市域产教联合体名单）

4 天前

长沙家长说 · “退出”≠“断交”，集团九年上限不必太过当真！

6 天前

中建四局 · 中建四局召开2024年上半年安全生产会暨项目观摩会

3 月前

果粉之家 · 正品Airpods仅299元,还要什么华强北!

1 月前

果粉之家 · 正品Airpods仅299元,还要什么华强北!

1 月前

顶刊收割机 · 他，手握3篇Nature/Science，回国即任北大研究员/博导，再发Nature大子刊！

1 月前

最轻最快 ViT ，Transformer的轻量化可以到达什么程度 ？

文章预览

最轻最快 ViT ，Transformer的轻量化可以到达什么程度？