专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Neurips 2024 | 通过解耦的位置向量探索大语言模型的上下文窗口

AINLP  · 公众号  ·  · 2024-10-08 10:09

文章预览

©  作者|董梓灿 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 机构|中国人民大学 研究方向|大语言模型、长文本处理 基于Transformer的大语言模型天然具有固定的上下文窗口。虽然已有一些方法用于拓展上下文窗口,但对于其背后的原理仍缺乏深入解释。 本文通过从模型隐状态中解耦出位置向量,对位置信息的形成和作用进行了系统分析,并进一步从位置向量的角度统一了长度外推和上下文窗口扩展的研究。最终,我们提出了两种全新的上下文窗口扩展方法。该论文已被NeurIPS 2024接收为Spotlight 。 文章也同步发布在  AI   Box  知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨! 论文题目:Exploring Context Window of Large Language Models via Decomposed Positional Vectors ‍ 论文链接: https://arxiv.org/abs/2405.18009 1 引言 尽管基于 Transformer 的大模型通 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览