专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【LLM之上下文窗口扩展】（一）| 无需微调的自扩展大模型上下文窗口

关于NLP那些你不知道的事 · 公众号 · · 2024-01-12 22:48

文章预览

论文链接： https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf 目前大模型基本都采用transformer结构，而transformer中attention机制的计算复杂度与序列长度呈平方关系，因此大模型在训练时候通常会设置固定的上下文窗口，而且也不会太大，比如GPT-4支持32K上下文，但这会限制大模型在推理时处理长序列的能力。作者认为LLM本身具有处理长上下文的能力，基于这一论点，提出了Self-Extend，其基本思想是构建两个维度的注意力机制：组维度和邻居维度。这两个维度是通过原始模型的self-attention来计算的，这意味着模型不需要任何训练。仅需修改四行代码，所提出的方法就可以毫不费力地扩展现有LLM的上下文窗口，而无需任何微调。一、介绍大多数现有LLM的上下文窗口长度是有限的，因为它们是用固定长度的训练序列训练 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博