专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

避开复数推导,我们还可以怎么理解RoPE?

AINLP  · 公众号  ·  · 2024-09-29 21:42

文章预览

大家好,今天的这篇文章,我想避开复数的推导,从一些全新的、更好玩、更可视化的角度,来探究RoPE的原理和各种性质。 这里所说的“可视化”,不仅仅是大家熟悉的“空间向量的旋转”, 而是: 具体能让你在调控RoPE的超参时,可以在脑海里快速绘制出一副图,预估你的调参对模型效果的大致影响 或者是当你想探寻衰减性和外推性时,你的脑海里不再仅有代表结果的那一副曲线图,你能动态地绘制出这些重要的性质是怎么一步步产生的。 诸如此类。而当你看完这篇文章,你就能站在几何的角度去理解复数推导的过程了(复数的运算本身就具有几何意义,本文也会给出一定解读)。 【全文目录如下】 一、原始Transformer函数式位置编码 1.1 从旋转的角度理解原理 1.2 这个位置编码为什么得不到人们的青睐 二、RoPE 2.1 在做一件什么事 2.2 旋转角度 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览