专栏名称: 自动驾驶专栏
自动驾驶专栏,持续聚焦自动驾驶最新资讯,并且分享行业内相关技术研究。欢迎志同道合的伙伴关注,并参与交流或者分享。
今天看啥  ›  专栏  ›  自动驾驶专栏

【滑铁卢大学】LEO:增强多模态大型语言模型的视觉编码器混合

自动驾驶专栏  · 公众号  ·  · 2025-01-16 09:23
    

文章预览

点击下方 卡片 ,关注“ 自动驾驶专栏 ”公众号 自动驾驶干货 ,即可获取 论文链接: https://arxiv.org/pdf/2501.06986 代码链接:https://github.com/Mozhgan91/LEO 摘要 本文介绍了LEO:增强多模态大型语言模型的视觉编码器混合。增强的视觉理解是多模态大型语言模型(MLLMs)的基石。最近的混合MLLMs结合了视觉专家混合,以解决单个视觉编码器和过长视觉tokens的局限性。尽管这些MLLMs取得了进展,但是在有效集成各种视觉编码器方面仍然存在研究差距。本项工作探索了用于混合MLLMs的视觉tokens的融合策略,从而设计了LEO,这是一种使用双分支视觉编码器框架的新型MLLM,该框架结合了自适应后融合策略和自适应拼接:对于输入图像的每个分割图块,LEO顺序地插入来自两个视觉编码器的视觉tokens。在13个视觉语言基准上的大量评估表明,LEO在大多数任务上均优于最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览