专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

性能远超Mamba!北大林宙辰团队提出全新混合序列建模架构MixCon

PaperWeekly  · 公众号  · 科研  · 2024-10-17 17:56

文章预览

©作者 |  林宙辰、徐鑫 单位 |  北京大学 来源 |  机器之心 在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。 因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI) 2024 上发表。 论文标题: MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling 论文链接: https://zhouchenlin.github.io/Publications/2024-ECAI-MixCon.pdf 现有序列建模模型的困境 线性注意力Transformer 线性注意力 Transformer 旨在通过近似注意力机制来提高原始 Transformer 模型的效率,将计算复杂度从 降低到 或 ,但在处理长 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览