专栏名称: 视学算法
公众号专注于人工智能 | 机器学习 | 深度学习 | 计算机视觉 | 自然语言处理等前沿论文和基础程序设计等算法。地球不爆炸,算法不放假。
今天看啥  ›  专栏  ›  视学算法

ICLR盲审阶段就被评审赞不绝口的论文:会是Transformer架构的一大创新吗?

视学算法  · 公众号  ·  · 2022-12-09 09:26
视学算法报道编辑:杜伟、陈萍首次!无残差连接或归一化层,也能成功训练深度transformer。尽管取得了很多显著的成就,但训练深度神经网络(DNN)的实践进展在很大程度上独立于理论依据。大多数成功的现代 DNN 依赖残差连接和归一化层的特定排列,但如何在新架构中使用这些组件的一般原则仍然未知,并且它们在现有架构中的作用也依然未能完全搞清楚。残差架构是最流行和成功的,最初是在卷积神经网络(CNN)的背景下开发的,后来自注意力网络中产生了无处不在的 transformer 架构。残差架构之所以取得成功,一种原因是与普通 DNN 相比具有更好的信号传播能力,其中信号传播指的是几何信息通过 DNN 层的传输,并由内核函数表示。最近,使用信号传播原则来训练更深度的 DNN 并且残差架构中没有残差连接和 / 或归一化层的参与,成为了社区 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照