专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

长文本模型近期研究工作梳理

AINLP  · 公众号  ·  · 2024-06-20 09:44
    

文章预览

©   作 者 |彭涵 机 构 | 中 国 人 民 大 学 研 究 方 向 |自然语言处理、 大 语 言 模 型 本 文 聚 焦并 总结 了当前长文本模型 的最新研究进展 。 文 章 也 同 步 发 布 在   A I   B o x   知 乎 专 栏 ( 知 乎 搜 索   A I   B o x   专 栏 ) , 欢 迎 大 家 在 知 乎 专 栏 的 文 章 下 方 评 论 留 言 , 交 流 探 讨 ! 引 言 基于Transformer的大语言模型通常具有有限的上下文窗口,在处理超出上下文窗口长度的文本时会导致性能显著下降,这是因为常见的大语言模型位置编码(如RoPE)在处理超过上下文窗口的文本时会出现分布外(OOD)的情况。现有的长文本模型仍然面临诸多问题: 模型在文本长度过长、上下文信息丰富的复杂任务中表现不佳(如代码、多文档问答等)。 较长序列带来的注意力稀释,以及远程衰减问题。 基于Transformer模型的计算复杂度 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览