文章预览
循环神经网络(RNNs)相对于基于 Transformer 的语言模型,在序列长度方面具有线性的计算复杂度,这使得它们在推理过程中处理长序列的速度更快。 然而,大多数公开可用的RNNs(如Mamba和RWKV)都是在小于10K Token 的序列上进行训练,其在更长上下文中的有效性至今仍然不令人满意。 在本文中,作者研究了RNNs无法处理长上下文的原因,并提出了一些关键的缓解措施。 当将最先进的RNNs应用于长上下文时,有两个实际问题需要关注: (1)无法将模型扩展到训练长度之外的输入; (2)记忆容量上限。为了解决第一个问题,作者首先研究了状态崩溃(SC),这是一种在训练期间未遇到过的序列长度上的性能降低现象。通过受控实验,作者将其归因于由于循环状态对训练长度过于复杂的参数化导致的过拟合。 对于第二个问题,作者在长文档上训练一系列Mam
………………………………