专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

Matryoshka 与 Mamba2的融合:MatMamba在语言与图像模型上的突破 !

arXiv每日学术速递  · 公众号  ·  · 2024-11-06 12:50
    

文章预览

状态空间模型(SSMs)如Mamba2是 Transformer 的有前景的替代方案,具有更快的理论训练和推理时间 - 尤其是对于长上下文长度。 最近关于Matryoshka表示学习的工作 - 以及其在MatFormer等工作中应用于 Transformer  Backbone 的应用 - 展示了如何在通用弹性模型中引入嵌套的小型子模型的层次结构。 在本工作中,作者提出了MatMamba:一种结合了Matryoshka风格学习与Mamba2的状态空间模型,通过修改块以包含嵌套维度来实现联合训练和自适应推理。 MatMamba允许在各种模型大小上实现高效和自适应部署。 作者训练了一个单一的大型MatMamba模型,并能够免费获得多个较小的嵌套模型 - 同时保持或改进了从零训练的 Baseline 较小模型的性能。 作者在35M到1.4B的参数大小的语言和图像模型上进行了训练。 作者的ImageNet和FineWeb结果表明,MatMamba模型与 Transformer 具有可比扩展性,同 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览