Transformer太深不行？NUS、字节：引入Re-attention机制，实现强大性能

大模型智能 · 公众号 · · 2021-06-02 14:54

文章预览

来自｜机器之心编辑｜陈萍、杜伟 CNN 通过堆叠更多的卷积层来提高性能，而 transformer 在层次更深时会很快进入饱和。基于此，来自新加坡国立大学和字节跳动 AI Lab 的研究者引入了 Re-attention 机制，以很小的计算代价重新生成注意力图以增强各层之间的多样性。提出的 DeepViT 模型也实现了非常不错的性能。视觉 transformer (ViT) 现已成功地应用于图像分类任务。近日，来自新加坡国立大学和字节跳动美国 AI Lab 的研究者表明，不同于卷积神经网络通过堆叠更多的卷积层来提高性能，ViT 的性能在扩展至更深时会迅速饱和。他们是如何得出这一结论的呢？具体而言，研究者根据经验观察到，这种扩展困难是由注意力崩溃（attention collapse）引起的：随着 Transformer 加深， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

阑夕 · Meta的AI视频论文里有一个和主流竞品的双盲测试对比结果，虽然-20241005170705

22 小时前

科技美学 · iQOO 13 屏幕新升级：同期唯一高端2K直屏

4 天前

科技美学 · iQOO 13 屏幕新升级：同期唯一高端2K直屏

4 天前

张雪峰老师 · 晚上订个蛋糕，去海底捞给我伟大的祖国过生日。。。。。-20241001114801

5 天前

王路在隐身 · 尼采的AI信徒从禅宗转向了净土

6 天前

t0mbkeeper · 这个成长速度很厉害了//@21拐-三转:大概是16、17年大学时-20240928194023

1 周前

GameLook · 吃到甜头，腾讯疑似拿下NIKKE开发商“3A二次元开放世界新游”代理权

2 月前