专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !

arXiv每日学术速递  · 公众号  ·  · 2024-10-26 17:03
    

文章预览

循环神经网络(RNNs)相对于基于 Transformer 的语言模型,在序列长度方面具有线性的计算复杂度,这使得它们在推理过程中处理长序列的速度更快。 然而,大多数公开可用的RNNs(如Mamba和RWKV)都是在小于10K Token 的序列上进行训练,其在更长上下文中的有效性至今仍然不令人满意。 在本文中,作者研究了RNNs无法处理长上下文的原因,并提出了一些关键的缓解措施。 当将最先进的RNNs应用于长上下文时,有两个实际问题需要关注: (1)无法将模型扩展到训练长度之外的输入; (2)记忆容量上限。为了解决第一个问题,作者首先研究了状态崩溃(SC),这是一种在训练期间未遇到过的序列长度上的性能降低现象。通过受控实验,作者将其归因于由于循环状态对训练长度过于复杂的参数化导致的过拟合。 对于第二个问题,作者在长文档上训练一系列Mam ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览