专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
今天看啥  ›  专栏  ›  学姐带你玩AI

Llama改进之——均方根层归一化RMSNorm

学姐带你玩AI  · 公众号  ·  · 2024-09-25 18:21
    

文章预览

来源:投稿  作者:175 编辑:学姐 unset unset 引言 unset unset 在学习完GPT2之后,从本文开始进入Llama模型系列。 本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由Root Mean Square Layer Normalization论文提出来的,可以参阅其论文笔记1。 unset unset LayerNorm unset unset 层归一化(LayerNorm)对Transformer等模型来说非常重要,它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算均值和方差,然后使用这些来对样本进行归一化: 这里 表示某个时间步LN层的输入向量表示,向量维度为H;h实LN层的输出;g,b实两个可学习的参数。 为什么层归一化有用?一些解释如下: 减少内部协变量偏移(Internal Covariate Shift):内部协变量偏移是指在深度神经网络的训练过程中,每一层输入的分布会发生变化,导致网络的训练变得困难。层归一化通过对每一层 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览