专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

大模型上下文长度扩展中的检索增强技术简述

AINLP  · 公众号  ·  · 2024-07-02 10:09

文章预览

笔记作者: 刘议骏,徐阳 出处: 哈工大SCIR 背景介绍 基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书籍等长文档的摘要、few-shot等输入较长的in-context learning场景等等),其长度超过了模型预训练时使用的长度,无法一次性输入模型,导致语言模型无法充分利用长输入中完整的知识,因而性能受到制约。 针对这一问题,研究者们提出了多种检索的方法,从全部的历史上文中检索所需的相关token,放入有限的窗口内计算attention,使得模型能够利用短的输入窗口处理长的序列。 方法概述 受预训练的限制,模型能够较好处理的序列长度相对固定,通常为20 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览