Matryoshka 与 Mamba2的融合：MatMamba在语言与图像模型上的突破 !

人工智能前沿讲习 · 公众号 · · 2024-11-15 18:00

文章预览

点击下方卡片，关注「AI视界引擎」公众号 ( 添加时备注：方向+学校/公司+昵称/姓名 ) 状态空间模型（SSMs）如Mamba2是 Transformer 的有前景的替代方案，具有更快的理论训练和推理时间 - 尤其是对于长上下文长度。最近关于Matryoshka表示学习的工作 - 以及其在MatFormer等工作中应用于 Transformer Backbone 的应用 - 展示了如何在通用弹性模型中引入嵌套的小型子模型的层次结构。在本工作中，作者提出了MatMamba：一种结合了Matryoshka风格学习与Mamba2的状态空间模型，通过修改块以包含嵌套维度来实现联合训练和自适应推理。 MatMamba允许在各种模型大小上实现高效和自适应部署。作者训练了一个单一的大型MatMamba模型，并能够免费获得多个较小的嵌套模型 - 同时保持或改进了从零训练的 Baseline 较小模型的性能。作者在35M到1.4B的参数大小的语言和图像模型上进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

实验万事屋 · 导师问我博士生花了他十几万经费能发几篇CNS？看了这同济大学的50.5分DNA损伤的Nature主刊，我劝他放弃幻想……

昨天

募格学术 · 首个！C9高校，评估为A

2 天前

实验万事屋 · 实验室的博士师兄师姐都好迷信，实验做不出来都要去拜拜！我就一点都不信那些，我做WB都直接踏罡步的……

2 天前

小张聊科研 · 从这篇11.7分CRM期刊研究，看子刊级别的研究要做到什么程度?

3 天前

小张聊科研 · 国自然假说框架|“正反馈回路”太“套路”了，“负反馈回路”能不能做？该如何设计?

5 天前

深度学习工坊 · 原来文章的idea都是这么找的？这个方法直接杀疯了！

4 月前