专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞

大模型智能  · 公众号  ·  · 2024-11-29 00:00
    

文章预览

大模型智能|分享 来源 | 新智元 编辑 | alan 与Transformer相比,RNN模型的一大优势是应对长序列的能力。 比如Mamba,内部状态大小始终保持不变,计算随序列长度线性增长,吃得多,消化快。 理论虽如此,但实际情况却是,目前的这些RNN模型在长上下文中的有效性并不能令人满意。 为啥会这样?空有效率但实际上能力不行? 近日,来自清华的研究团队对此进行了深入的实验研究: 论文地址:https://arxiv.org/pdf/2410.07145v1 文章表明,Mamba这类RNN模型在长上下文中主要面临两个问题: 一是无法推断比训练长度更长的输入,原因是较短的训练数据导致了循环状态过拟合; 二是内存容量的上限,由于模型无法有效遗忘很久以前的信息,导致新的信息存不进来了。 ——这俩问题明显不是RNN的锅。 而经过研究人员的对症下药,Mamba-2(370M)在256K上下文长度上达 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览