专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

Mamba之后是什么?朝着更具表现力的递归更新规则迈进

专知  · 公众号  ·  · 2025-01-19 11:00
    

文章预览

本报告探讨了现代线性循环模型在长序列建模中的表现,并提出了更高效的循环更新规则。随着基础模型的上下文长度迅速增长,传统的Transformer模型在处理长序列时面临训练和推理的复杂性挑战。Transformer的训练时间复杂性与序列长度的平方成正比,导致长序列建模成本高昂,而推理时需要存储每个token的键值缓存,导致高内存负担。相比之下,传统的RNN在训练时具有线性复杂性,推理时具有恒定内存需求,但无法并行化训练,限制了其在大规模应用中的效率。 现代线性循环模型通过线性递归实现了并行训练,包括门控线性RNN、状态空间模型和线性注意力模型。Mamba2更类似于线性注意力模型而非状态空间模型。混合线性和Softmax注意力模型在大规模和长上下文任务中表现出色,能够达到GPT-4级别的性能。这些模型通过结合线性注意力和少量Softmax注 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览