今天看啥  ›  专栏  ›  灵度智能

清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !

灵度智能  · 公众号  ·  · 2024-10-27 12:20

文章预览

点击下方卡片,关注 「AI视界引擎」 公众号 ( 添加时备注:方向+学校/公司+昵称/姓名 ) 循环神经网络(RNNs)相对于基于 Transformer 的语言模型,在序列长度方面具有线性的计算复杂度,这使得它们在推理过程中处理长序列的速度更快。 然而,大多数公开可用的RNNs(如Mamba和RWKV)都是在小于10K Token 的序列上进行训练,其在更长上下文中的有效性至今仍然不令人满意。 在本文中,作者研究了RNNs无法处理长上下文的原因,并提出了一些关键的缓解措施。 当将最先进的RNNs应用于长上下文时,有两个实际问题需要关注: (1)无法将模型扩展到训练长度之外的输入; (2)记忆容量上限。为了解决第一个问题,作者首先研究了状态崩溃(SC),这是一种在训练期间未遇到过的序列长度上的性能降低现象。通过受控实验,作者将其归因于由于循环状态对训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览