文章预览
© 作者|董梓灿 机构|中国人民大学 研究方向|大语言模型、长文本处理 基于Transformer的大语言模型天然具有固定的上下文窗口。虽然已有一些方法用于拓展上下文窗口,但对于其背后的原理仍缺乏深入解释。 本文通过从模型隐状态中解耦出位置向量,对位置信息的形成和作用进行了系统分析,并进一步从位置向量的角度统一了长度外推和上下文窗口扩展的研究。最终,我们提出了两种全新的上下文窗口扩展方法。该论文已被NeurIPS 2024接收为Spotlight 。 论文题目:Exploring Context Window of Large Language Models via Decomposed Positional Vectors 论文链接: https://arxiv.org/abs/2405.18009 1 引言 尽管基于 Transformer 的大模型通过位置编码捕捉了序列中的位置信息,但通常受限于最大输入长度(即上下文窗口)。当输入超过上下文窗口时,模型的
………………………………