今天看啥  ›  专栏  ›  人工智能前沿讲习

Matryoshka 与 Mamba2的融合:MatMamba在语言与图像模型上的突破 !

人工智能前沿讲习  · 公众号  ·  · 2024-11-15 18:00
    

文章预览

点击下方卡片,关注 「AI视界引擎」 公众号 ( 添加时备注:方向+学校/公司+昵称/姓名 ) 状态空间模型(SSMs)如Mamba2是 Transformer 的有前景的替代方案,具有更快的理论训练和推理时间 - 尤其是对于长上下文长度。 最近关于Matryoshka表示学习的工作 - 以及其在MatFormer等工作中应用于 Transformer  Backbone 的应用 - 展示了如何在通用弹性模型中引入嵌套的小型子模型的层次结构。 在本工作中,作者提出了MatMamba:一种结合了Matryoshka风格学习与Mamba2的状态空间模型,通过修改块以包含嵌套维度来实现联合训练和自适应推理。 MatMamba允许在各种模型大小上实现高效和自适应部署。 作者训练了一个单一的大型MatMamba模型,并能够免费获得多个较小的嵌套模型 - 同时保持或改进了从零训练的 Baseline 较小模型的性能。 作者在35M到1.4B的参数大小的语言和图像模型上进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览