专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

LLM基础之长度外推技术

吃果冻不吐果冻皮  · 公众号  ·  · 2025-01-07 20:52
    

文章预览

原文:https://www.cnblogs.com/laozhanghahaha/p/18303726 长度外推为在不需要对模型进行额外训练的情况下,模型可以处理更长的序列。本篇文章主要介绍目前大模型用到的一些长度外推技术,包括以RoPE为基础进行位置插值、NTK-aware、动态NTK、NTK-by-parts 和YaRN,以及LongLoRA微调技术。关于RoPE,可参见我的上一篇博客: LLM基础之位置编码篇 位置插值 回想一下Transformer结构中使用RoPe进行query, key, value(下文用q、k、v表示)的计算 xm表示m位置处的词嵌入 ,  θd是d维的旋转角度 。为了在预测阶段扩展窗口长度,一个非常朴素的方法就是在预测阶段给长文本的位置乘上一个缩放因子1/s,将长文本的位置缩放到训练阶段窗口长度之内。缩放因子1/s一般为 训练阶段文本长度L/预测阶段文本长度L' , 即 1/s=L/L' 优点 实现简单 兼容性强,与当前的位置编码技术,比如正余 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览