专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

避开复数推导，我们还可以怎么理解RoPE？

AINLP · 公众号 · · 2024-09-29 21:42

文章预览

大家好，今天的这篇文章，我想避开复数的推导，从一些全新的、更好玩、更可视化的角度，来探究RoPE的原理和各种性质。这里所说的“可视化”，不仅仅是大家熟悉的“空间向量的旋转”，而是：具体能让你在调控RoPE的超参时，可以在脑海里快速绘制出一副图，预估你的调参对模型效果的大致影响或者是当你想探寻衰减性和外推性时，你的脑海里不再仅有代表结果的那一副曲线图，你能动态地绘制出这些重要的性质是怎么一步步产生的。诸如此类。而当你看完这篇文章，你就能站在几何的角度去理解复数推导的过程了（复数的运算本身就具有几何意义，本文也会给出一定解读）。【全文目录如下】一、原始Transformer函数式位置编码 1.1 从旋转的角度理解原理 1.2 这个位置编码为什么得不到人们的青睐二、RoPE 2.1 在做一件什么事 2.2 旋转角度 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

知产财经 · 关注┃宠物包立体设计受著作权法保护吗？

昨天

小纽美国法律咨询 · 2025年申请H-1B？现在找小纽办理立享优惠~

昨天

小纽美国法律咨询 · 有了H-1B办EB-2/EB-3绿卡铁定稳了？PERM打广告结果公司真的招到新人了？PERM申请避坑指南！

2 天前

Kevin在纽约 · 回复@朋友7395438453:是选举闹的吗？//@朋友7395-20241118144207

4 天前

科研职场说 · 疾控中心的事业编制，加上周末双休，是否依然吃香？

3 月前

富国基金 · 富国合唱团 |唱出《国潮》澎湃、爱我中华的浩然心声

1 月前

芝能汽车 · 德国汽车工业的衰弱-整车篇（上）：奔驰、宝马和大众都下调业绩预期

1 月前

t0mbkeeper · 你们看看我当年从逻辑角度进行的分析对不对 -20241022200437

1 月前