今天看啥  ›  专栏  ›  架构师带你玩转AI

一文彻底搞懂Transformer - Add & Norm(残差连接和层归一化)

架构师带你玩转AI  · 公众号  ·  · 2024-07-08 23:40
    

文章预览

Transformer 在Transformer模型中,Add & Norm(残差连接和层归一化)是两个重要的组成部分,它们共同作用于模型的各个层中,以提高模型的训练效率和性能。 Add &  Norm(残差连接和层归一化) 一、Add(残差连接) 网络退化 : 网络退化(Degradation)是深度学习中一个常见的现象,特别是在构建深层神经网络时更为显著。 它指的是在网络模型可以收敛的情况下,随着网络层数的增加,网络性能先增加后迅速下降的现象。 这种现象并不符合常理,因为更深的网络结构通常被认为应该表现得更好。 例如,一个56层的深层网络在测试集上的错误率有时会高于一个20层的浅层网络,且这并非数据问题导致。即使在训练集上,深层网络的表现也不如浅层网络,这种现象称为“网络退化”。 网格退化 Add(残差连接) : 残差连接( Residual  Connection )或跳跃连接 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览