文章预览
原文:https://www.cnblogs.com/laozhanghahaha/p/18303726 长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客: LLM基础之位置编码篇 位置插值 回想一下Transformer结构中使用RoPe进行query, key, value(下文用q、k、v表示)的计算 xm表示m位置处的词嵌入 , θd是d维的旋转角度 。为了在预测阶段扩展窗口长度,一个非常朴素的方法就是在预测阶段给长文本的位置乘上一个缩放因子1/s,将长文本的位置缩放到训练阶段窗口长度之内。缩放因子1/s一般为 训练阶段文本长度L/预测阶段文本长度L' , 即 1/s=L/L' 优点 实现简单 兼容性强,与当前的位置编码技术,比如正余
………………………………