MLLM+MoE！UIUC联合字节提出视觉编码器稀疏门控MOE！

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-05 00:53

文章预览

数源AI 知识星球数源AI论文推荐知识星球（每日最新论文及资料包，包含目标检测，图像分割，图像识别检索，视觉预训练，3D/点云/视频，图像超分/去噪，GAN/Diffusion，LLM，ImageCaptioning，VQA，视觉语言预训练，MLLM，Text2Image，OpenVocabulary，语音技术，机器人技术，增量/连续学习，自动驾驶，遥感，医学，量化/剪枝/加速，机器翻译/强化学习，NRF，Visual Counting，时序建模等方向）！！论文中文版pdf请联系小助手或加入多模态交流群！！数源AI 最新论文解读系列论文名：CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts 论文链接： https://arxiv.org/pdf/2405.05949.pdf 开源代码：https://github.com/SHI-Labs/CuMo 引言 GPT-4V的出现引发了开源社区的兴奋，他们希望将大型语言模型（LLM）转变为多模态LLM。最近的多模态LLM通常将预训练的视觉编码器和LLM与视觉指导调 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博