今天看啥  ›  专栏  ›  NewBeeNLP

长文本模型近期研究工作梳理

NewBeeNLP  · 公众号  ·  · 2024-08-03 11:05

文章预览

©   作 者 |彭涵 机 构 | 中 国 人 民 大 学 研 究 方 向 |自然语言处理、 大 语 言 模 型 本 文 聚 焦并 总结 了当前长文本模型 的最新研究进展 。 引 言 基于Transformer的大语言模型通常具有有限的上下文窗口,在处理超出上下文窗口长度的文本时会导致性能显著下降,这是因为常见的大语言模型位置编码(如RoPE)在处理超过上下文窗口的文本时会出现分布外(OOD)的情况。现有的长文本模型仍然面临诸多问题: 模型在文本长度过长、上下文信息丰富的复杂任务中表现不佳(如代码、多文档问答等)。 较长序列带来的注意力稀释,以及远程衰减问题。 基于Transformer模型的计算复杂度随着序列长度的增长而平方增长,训练和推理开销过大。 SAMBA: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling https://arxiv.org/pdf/2406.07522 本文试图解决 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览