专栏名称: 科情智库
宣传科技信息资源及科技情报研究成果,关注产业最新动态、发展热点和重大变革,为科技创新提供新媒体渠道。
今天看啥  ›  专栏  ›  科情智库

香港中文大学(深圳)团队推出混合 Mamba 和 Transformer 架构的大语言模型

科情智库  · 公众号  ·  · 2024-10-17 07:30

文章预览

科情智库 近日,香港中文大学(深圳)和深圳大数据研究院的研究团队推出一种创新的混合架构多模态大语言模型LongLLaVA(长上下文大型语言和视觉助手),在效率和性能之间实现了更好的平衡。LongLLaVA的核心创新在于其混合架构,该架构结合了Mamba和Transformer模块,并提出了一种高效图像表示方法,该方法对图像Token应用2D池化以降低计算成本同时保持性能。在数据构建方面,LongLLaVA考虑了多个图像之间的时间和空间依赖性,设计了独特的数据格式,使模型能够区分图像之间的时间和空间关系。为了进一步提升模型的多模态长上下文处理能力,研究团队采用了渐进式训练策略。训练过程分为三个阶段:单图像对齐、单图像指令调整和多图像指令调整。通过这种逐步提升的方法,LongLLaVA在各种基准测试中取得了有竞争力的结果,并在单张80GB GPU上对10 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览