一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

避开复数推导,我们还可以怎么理解RoPE(重制版)

深度学习自然语言处理  · 公众号  ·  · 2024-10-12 21:51

文章预览

来自:大猿搬砖简记 写在前面:前段日子公众号发过 从圆盘旋转视角理解RoPE的文章 ,发出后反响比较好。有读者在后台问,是否可以延续圆盘旋转的视角,重新理解NTK-RoPE呢?因为直接从数学推导的角度看实在太抽象了,不能想象到相比于RoPE,它到底是怎样起到(特别是在长文本推理和continue pretrain)上的改进作用的。所以这篇文章的第三部分,我延续了圆盘旋转的逻辑,更加可视化地解读NTK-RoPE,并辅以直观的数学推导。除此以外的部分和上一篇文章保持一致~(都怪公众号不能原文修改) 以下是正文: 大家好,今天的这篇文章,我想避开复数的推导,从一些全新的、更好玩、更可视化的角度,来探究RoPE的原理和各种性质。 这里所说的“可视化”,不仅仅是大家熟悉的“空间向量的旋转”, 而是: 具体能让你在调控RoPE的超参时,可以在脑 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览