今天看啥  ›  专栏  ›  大模型智能

Transformer太深不行?NUS、字节:引入Re-attention机制,实现强大性能

大模型智能  · 公众号  ·  · 2021-06-02 14:54

文章预览

来自|机器之心    编辑|陈萍、杜伟 CNN 通过堆叠更多的卷积层来提高性能,而 transformer 在层次更深时会很快进入饱和。 基于此,来自新加坡国立大学和字节跳动 AI Lab 的研究者引入了 Re-attention 机制,以很小的计算代价重新生成注意力图以增强各层之间的多样性。 提出的 DeepViT 模型也实现了非常不错的性能。 视觉 transformer (ViT) 现已成功地应用于图像分类任务。近日,来自新加坡国立大学和字节跳动美国 AI Lab 的研究者表明,不同于卷积神经网络通过堆叠更多的卷积层来提高性能,ViT 的性能在扩展至更深时会迅速饱和。 他们是如何得出这一结论的呢? 具体而言,研究者根据经验观察到,这种扩展困难是由注意力崩溃(attention collapse)引起的:随着 Transformer 加深, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览