专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

mamba和Tranformer融合:通过混合架构高效扩展多模态大语言模型到 1000 张图像

FightingCV  · 公众号  ·  · 2024-10-03 09:00
    

文章预览

摘要 扩展多模态大语言模型 (MLLMs) 的长上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。 这涉及一系列系统优化,包括模型架构、数据构建和训练策略,特别是在解决诸如  随着图像数量增加,性能会下降  和  高计算成本   . 在本文中,我们调整了模型架构,使其成为 Mamba 和 Transformer 模块的混合体,使用多个图像之间的时域和空域依赖关系来构建数据,并采用渐进式训练策略。 发布的模型  LongLLaVA  ( 长 上下文  L arge  L anguage  a nd  V ision  A   ssistant) 是第一个混合 MLLM,在效率和有效性之间取得了更好的平衡。 LongLLaVA 不仅在各种基准测试中取得了竞争性结果,而且保持了高吞吐量和低内存消耗。 尤其是在单个 A100 80GB GPU 上可以处理近千张图像,为广泛的任务展示了可观的应用前景。 图 1:  比较了单个 80GB GPU ( Int8 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览