一文看懂Mamba，Transformer最强竞争者

机器学习研究组订阅 · 公众号 · AI · 2024-08-19 19:07

文章预览

Mamba 虽好，但发展尚早。深度学习架构有很多，但近些年最成功的莫过于 Transformer，其已经在多个应用领域确立了自己的主导地位。如此成功的一大关键推动力是注意力机制，这能让基于 Transformer 的模型关注与输入序列相关的部分，实现更好的上下文理解。但是，注意力机制的缺点是计算开销大，会随输入规模而二次增长，也因此就难以处理非常长的文本。好在前段时间诞生了一种颇具潜力的新架构：结构化的状态空间序列模型（SSM）。该架构能高效地捕获序列数据中的复杂依赖关系，并由此成为 Transformer 的一大强劲对手。这类模型的设计灵感来自经典的状态空间模型 —— 我们可以将其看作是循环神经网络和卷积神经网络的融合模型。它们可使用循环或卷积运算进行高效地计算，从而让计算开销随序列长度而线性或近线性地变化，由此大幅 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 一个 ChatGPT 的知识：ChatGPT 是不会抓取 URL-20241225153325

昨天

宝玉xp · “李飞飞：我认为自艾伦·图灵以来，人类还没有完全理解智能背后的基-20241225042446

昨天

宝玉xp · 类似，不过普通提示词难度反而比搜索要低一些，因为AI可以辅助生成-20241223094616

3 天前

爱可可-爱生活 · 本文以推理主义语义学为框架，论证了大型语言模型的反表征主义特性，-20241223053043

3 天前

爱可可-爱生活 · 【深度思考第二十四篇：“AI内容过敏症”揭示了人工智能需要突破的-20241222064402

4 天前

蔚蓝轨迹 Rail · 铁总国际将负责建设中吉乌铁路，项目融资正在磋商中

6 月前