专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

希望这篇是最清晰好懂的 Layernorm 原理解析

AINLP · 公众号 · · 2024-09-29 21:42

文章预览

这一篇文章主要讲讲 Layer Normalization。在本文里，Layer Normalization 统一都被称为 layernorm。字面意思就是层归一化，也属于数据分布归一化的一种。在神经网络训练里，把数据分布都做一个归一化，好处多多，可以使训练更充分，更快速，可以克服Internal Covariate Shift 问题。这个问题是需要单独摊开来讲的。这一节主要是讲一下 layernorm 是如何实施的，以及其本质。 Layernorm 的应用场景 Layernorm 主要应用在自然语言处理领域，里面的各类神经网络模型 Bert、GPT 等等都是建立在 token 上的。也就是下图这样，每一个 token 都对应一个 embedding。 Embedding 是一个向量，每个 token 之间的关系都使用 embedding 向量来表示。最主要使用余弦相似度。举例两个 token embedding 向量，都是4维，他们之间的余弦相似度是： import numpy as np token_embedding_1 = np.array([-5.8260e-01, 4.275 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博