mamba和Tranformer融合：通过混合架构高效扩展多模态大语言模型到 1000 张图像

FightingCV · 公众号 · · 2024-10-03 09:00

文章预览

摘要扩展多模态大语言模型 (MLLMs) 的长上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及一系列系统优化，包括模型架构、数据构建和训练策略，特别是在解决诸如随着图像数量增加，性能会下降和高计算成本 . 在本文中，我们调整了模型架构，使其成为 Mamba 和 Transformer 模块的混合体，使用多个图像之间的时域和空域依赖关系来构建数据，并采用渐进式训练策略。发布的模型 LongLLaVA ( 长上下文 L arge L anguage a nd V ision A ssistant) 是第一个混合 MLLM，在效率和有效性之间取得了更好的平衡。 LongLLaVA 不仅在各种基准测试中取得了竞争性结果，而且保持了高吞吐量和低内存消耗。尤其是在单个 A100 80GB GPU 上可以处理近千张图像，为广泛的任务展示了可观的应用前景。图 1：比较了单个 80GB GPU ( Int8 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

电商行业 · 雷军大爆发，小米市值打破历史记录

9 小时前

众视AsiaOTT · 持续发力抖音电商2024年累计清理“水军”账号160万个

17 小时前

说财猫 · 是谁逼得刘强东，又做外卖又干滴滴啊？

昨天

江玉燕 · 【Shopee】长期未登录会如何？

昨天

江玉燕 · 【Shopee】长期未登录会如何？

昨天

电子商务研究中心 · 2025直播电商税务合规茶话会召开在即抓紧报名！

2 天前

催化计 · ACS Catal.：HY分子筛封装Pt单原子催化蒽加氢裂化的机理

8 月前

中财随笔 · 交易所 | 郑州商品交易所集团2024年秋季招聘&博士后工作站招收及薪酬待遇户口情况

4 月前

抗体圈 · 腺病毒核心蛋白：结构与功能

3 月前

佳木斯广播电视台 · 手机、平板购新补贴标准来了！还有更多福利→

1 月前