整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

【LLM之上下文窗口扩展】(一)| 无需微调的自扩展大模型上下文窗口

关于NLP那些你不知道的事  · 公众号  ·  · 2024-01-12 22:48

文章预览

论文链接 : https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf        目前大模型基本都采用transformer结构,而transformer中attention机制的计算复杂度与序列长度呈平方关系,因此大模型在训练时候通常会设置固定的上下文窗口,而且也不会太大,比如GPT-4支持32K上下文,但这会限制大模型在推理时处理长序列的能力。        作者认为LLM本身具有处理长上下文的能力,基于这一论点,提出了Self-Extend,其基本思想是构建两个维度的注意力机制:组维度和 邻居维度。这两个维度是通过原始模型的self-attention来计算的,这意味着模型不需要任何训练。 仅需修改四行代码,所提出的方法就可以毫不费力地扩展现有LLM的上下文窗口,而无需任何微调。 一、介绍        大多数现有LLM的上下文窗口长度是有限的,因为它们是用固定长度的训练序列训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览