文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal| MLLMs & Long-context, LVLMs & Autonomous Driving LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture 2024-09-04|CUHK(SZ)| 🟡 http://arxiv.org/abs/2409.02889v1 https://github.com/FreedomIntelligence/LongLLaVA 概述 在快速发展的多模态大语言模型(MLLMs)领域,理解和处理长上下文变得更加重要。该研究提出了一种名为LongLLaVA的混合架构模型, 旨在应对处理多个高分辨率图像和长视频时的性能下降及高计算成本问题 。通过整合Mamba和Transformer架构,LongLLaVA优化了多模态特性,改进了数据构建方法,并采用逐步训练策略,使得模型能够有效处理接近一千幅图像,并在各种基准测试中展示了竞争力。LongLLaVA的设计确保了高效的计算能力和低内存消耗,为多模态任务提供了更广阔的
………………………………