首个Mamba+Transformer多模态大模型

数据派THU · 公众号 · 大数据 · 2024-10-04 17:00

文章预览

来源：算法进阶本文约4100字，建议阅读 8分钟 LongLLaVA在长上下文多模态理解方面表现出色。本文作者来自于香港中文大学深圳和深圳大数据研究院。其中第一作者为香港中文大学深圳博士生王熙栋和研究助理宋定杰，主要研究方向分别为医疗AGI和多模态学习；博士生陈舒年研究方向为多模态学习，博士生张辰研究方向为高效语言模型。通讯作者为香港中文大学深圳数据科学学院王本友教授。扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。该团队将模型架构调整为 Mamba 和 Transformer 块的混合体，在数据构建中考虑多个图像之间的时间和空间依赖性，并采 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据派THU · 基于Huffman树的层次化Softmax：面向大规模神经网络的高效概率计算方法

2 天前

软件定义世界（SDX） · 红杉资本2025年AI三大展望：大模型厂商各显神通；杀手级应用AI搜索；AI支出变稳

4 天前

DataFunTalk · AI训练提速秘籍：破解数据访问与GPU资源瓶颈

3 天前

DataFunTalk · AI训练提速秘籍：破解数据访问与GPU资源瓶颈

3 天前

数据派THU · 【CMU博士论文】结构化离散数据的生成模型及其在药物发现中的应用

4 天前

数据派THU · AI揭示太阳大气中的隐藏秘密，将改变我们对太阳的理解

4 天前

丹尼尔先生 · 11种男女通用的围巾潮流戴法：让你的脸变小，颜值还爆表

1 月前