文章预览
©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 前几天,笔者看了几篇介绍 SSM(State Space Model)的文章,才发现原来自己从未认真了解过 SSM,于是打算认真去学习一下 SSM 的相关内容,顺便开了这个新坑,记录一下学习所得。 SSM 的概念由来已久,但这里我们特指深度学习中的 SSM,一般认为其开篇之作是 2021 年的 S4,不算太老,而 SSM 最新最火的变体大概是去年的 Mamba [1] 。 当然,当我们谈到 SSM 时,也可能泛指一切线性 RNN 模型,这样 RWKV [2] 、RetNet [3] 还有此前我们在 《Google新作试图“复活”RNN:RNN能否再次辉煌?》 介绍过的 LRU 都可以归入此类。不少 SSM 变体致力于成为 Transformer 的竞争者,尽管笔者并不认为有完全替代的可能性,但 SSM 本身优雅的数学性质也值得学习一番。 尽管我们说 SSM 起源于 S4,但在 S4 之
………………………………