文章预览
科情智库 近日,香港中文大学(深圳)和深圳大数据研究院的研究团队推出一种创新的混合架构多模态大语言模型LongLLaVA(长上下文大型语言和视觉助手),在效率和性能之间实现了更好的平衡。LongLLaVA的核心创新在于其混合架构,该架构结合了Mamba和Transformer模块,并提出了一种高效图像表示方法,该方法对图像Token应用2D池化以降低计算成本同时保持性能。在数据构建方面,LongLLaVA考虑了多个图像之间的时间和空间依赖性,设计了独特的数据格式,使模型能够区分图像之间的时间和空间关系。为了进一步提升模型的多模态长上下文处理能力,研究团队采用了渐进式训练策略。训练过程分为三个阶段:单图像对齐、单图像指令调整和多图像指令调整。通过这种逐步提升的方法,LongLLaVA在各种基准测试中取得了有竞争力的结果,并在单张80GB GPU上对10
………………………………