专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Neurips 2024 | 通过解耦的位置向量探索大语言模型的上下文窗口

AINLP · 公众号 · · 2024-10-08 10:09

文章预览

© 作者｜董梓灿 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 机构｜中国人民大学研究方向｜大语言模型、长文本处理基于Transformer的大语言模型天然具有固定的上下文窗口。虽然已有一些方法用于拓展上下文窗口，但对于其背后的原理仍缺乏深入解释。本文通过从模型隐状态中解耦出位置向量，对位置信息的形成和作用进行了系统分析，并进一步从位置向量的角度统一了长度外推和上下文窗口扩展的研究。最终，我们提出了两种全新的上下文窗口扩展方法。该论文已被NeurIPS 2024接收为Spotlight 。文章也同步发布在 AI Box 知乎专栏（知乎搜索 AI Box 专栏），欢迎大家在知乎专栏的文章下方评论留言，交流探讨！论文题目：Exploring Context Window of Large Language Models via Decomposed Positional Vectors ‍ 论文链接： https://arxiv.org/abs/2405.18009 1 引言尽管基于 Transformer 的大模型通 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

生态梦网 · 大手笔！滨海新区这里打造“医疗航母”

22 小时前

生态梦网 · 网友咨询：塘汉快速路这一段何时建成通车？最新消息来了

3 天前

刑法规范总整理 · 【规范整理】天津市刑事司法规范整理（2024年11月21日）

3 天前

刑法规范总整理 · 【规范整理】天津市刑事司法规范整理（2024年11月21日）

3 天前

生态梦网 · 网友留言：建议滨海这个区域设立管委会！官方回复来了

4 天前

德鲁克博雅管理 · 纪念德鲁克诞辰：做好自我管理再谈公司管理

6 天前

果壳 · 洗头洗不干净这个，那你的头天天洗也是脏的

2 月前

专知 · 2024必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/CV AI+X》集合

1 月前