专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

184-B1|MLLM长上下文处理,自动驾驶大型LVLM数据集;动态PEFT;音频驱动说话头系列;毛茸茸几何体渲染与多层网格表示

AIGC Research  · 公众号  ·  · 2024-09-06 02:32

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal| MLLMs & Long-context, LVLMs & Autonomous Driving LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture 2024-09-04|CUHK(SZ)| 🟡 http://arxiv.org/abs/2409.02889v1 https://github.com/FreedomIntelligence/LongLLaVA 概述 在快速发展的多模态大语言模型(MLLMs)领域,理解和处理长上下文变得更加重要。该研究提出了一种名为LongLLaVA的混合架构模型, 旨在应对处理多个高分辨率图像和长视频时的性能下降及高计算成本问题 。通过整合Mamba和Transformer架构,LongLLaVA优化了多模态特性,改进了数据构建方法,并采用逐步训练策略,使得模型能够有效处理接近一千幅图像,并在各种基准测试中展示了竞争力。LongLLaVA的设计确保了高效的计算能力和低内存消耗,为多模态任务提供了更广阔的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览