LLM基础之长度外推技术

吃果冻不吐果冻皮 · 公众号 · · 2025-01-07 20:52

文章预览

原文：https://www.cnblogs.com/laozhanghahaha/p/18303726 长度外推为在不需要对模型进行额外训练的情况下，模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术，包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN，以及LongLoRA微调技术。关于RoPE，可参见我的上一篇博客： LLM基础之位置编码篇位置插值回想一下Transformer结构中使用RoPe进行query， key， value（下文用q、k、v表示）的计算 xm表示m位置处的词嵌入， θd是d维的旋转角度。为了在预测阶段扩展窗口长度，一个非常朴素的方法就是在预测阶段给长文本的位置乘上一个缩放因子1/s，将长文本的位置缩放到训练阶段窗口长度之内。缩放因子1/s一般为训练阶段文本长度L/预测阶段文本长度L' ，即 1/s=L/L' 优点实现简单兼容性强，与当前的位置编码技术，比如正余 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新疆949交通广播 · 剧烈降温！今冬首个寒潮橙色预警发布

12 小时前

新疆949交通广播 · 定了！就在1月22日

3 天前

IT桔子 · 国内新能源汽车发展怎么样了？这里有一份新能源汽车产业图谱有待查收

7 月前

CG世界 · 《黑神话：悟空》最新解禁概念图，高模图

4 月前

南都周刊 · “涨价大王”官宣，不降价！

4 月前

亿恩 · 黑五7天狂揽万单！产业带卖家在SHEIN掘金旺季

1 月前