专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

单卡千图推理!港中深等提出全新混合架构多模态大模型LongLLaVA

PaperWeekly  · 公众号  · 科研  · 2024-09-25 13:05

文章预览

©作者 |  王熙栋、宋定杰等 学校 |  香港中文大学(深圳) 研究方向 |  医疗AGI、多模态学习 扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。 该团队将模型架构调整为 Mamba 和 Transformer 块的混合体,在数据构建中考虑多个图像之间的时间和空间依赖性,并采用渐进式训练策略。提出了首个混合架构多模态大语言模型 LongLLaVA,在效率和性能之间实现了更好的平衡。 LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果,还保持了高吞吐量和低显存消耗,其可以在单个 A100 80GB GPU 上处理近千张图像,展现出了广阔的应用前景。 论文链接: https://arxiv.org/abs/2409.0 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览