文章预览
点击下方卡片,关注 「AI视界引擎」 公众号 ( 添加时备注:方向+学校/公司+昵称/姓名 ) 状态空间模型(SSMs)如Mamba2是 Transformer 的有前景的替代方案,具有更快的理论训练和推理时间 - 尤其是对于长上下文长度。 最近关于Matryoshka表示学习的工作 - 以及其在MatFormer等工作中应用于 Transformer Backbone 的应用 - 展示了如何在通用弹性模型中引入嵌套的小型子模型的层次结构。 在本工作中,作者提出了MatMamba:一种结合了Matryoshka风格学习与Mamba2的状态空间模型,通过修改块以包含嵌套维度来实现联合训练和自适应推理。 MatMamba允许在各种模型大小上实现高效和自适应部署。 作者训练了一个单一的大型MatMamba模型,并能够免费获得多个较小的嵌套模型 - 同时保持或改进了从零训练的 Baseline 较小模型的性能。 作者在35M到1.4B的参数大小的语言和图像模型上进
………………………………