【滑铁卢大学】LEO：增强多模态大型语言模型的视觉编码器混合

自动驾驶专栏 · 公众号 · · 2025-01-16 09:23

文章预览

点击下方卡片，关注“ 自动驾驶专栏 ”公众号自动驾驶干货，即可获取论文链接： https://arxiv.org/pdf/2501.06986 代码链接：https://github.com/Mozhgan91/LEO 摘要本文介绍了LEO：增强多模态大型语言模型的视觉编码器混合。增强的视觉理解是多模态大型语言模型（MLLMs）的基石。最近的混合MLLMs结合了视觉专家混合，以解决单个视觉编码器和过长视觉tokens的局限性。尽管这些MLLMs取得了进展，但是在有效集成各种视觉编码器方面仍然存在研究差距。本项工作探索了用于混合MLLMs的视觉tokens的融合策略，从而设计了LEO，这是一种使用双分支视觉编码器框架的新型MLLM，该框架结合了自适应后融合策略和自适应拼接：对于输入图像的每个分割图块，LEO顺序地插入来自两个视觉编码器的视觉tokens。在13个视觉语言基准上的大量评估表明，LEO在大多数任务上均优于最 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博