专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM基础知识】LLMs-Norm&激活&FNN层知识总结笔记v5.0

AINLP  · 公众号  ·  · 2024-07-29 10:10
    

文章预览

【导读】:本文是LLM知识点第五篇,介绍LLM中采用的Norm方法,重点介绍LLM常用的LayerNorm,RMSNorm,DeepNorm。接着介绍ReLU,GeLU,Swish激活函数和GLU及其变体激活函数,如SwiGLU激活函数 。最后介绍LLM中的FFN层。 Normalization 【1】为什么模型需要Normalization? 在深度神经网络训练中,模型需要Normalization的原因: 1. 归一化可以调整输入数据特征的分布,使其分布更稳定, 在训练时可以缓解梯度消失或梯度爆炸问题 。 2. 归一化可以将不同特征的值范围映射到相似的区间,有助于优化算法(如梯度下降)更快速地找到全局最优解或局部最优解。 有助于加速模型的收敛过程。 若各个特征的分布范围差异过大,会影响梯度下降的迭代步数以及梯度更新的难度,从而影响模型的收敛。 3. 归一化有助于使模型更好地泛化到未见过的数据。 当输入数据归一化后,模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览