专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

AAAI 2025｜如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

我爱计算机视觉 · 公众号 · · 2025-01-17 22:20

文章预览

关注公众号，发现CV技术之美在多模态大语言模型（MLLMs）的发展中，视觉-语言连接器作为将视觉特征映射到LLM语言空间的关键组件，起到了桥梁作用。因此，它几乎成为了所有多模态大语言模型中不可或缺的结构之一。然而，如何高效地将视觉特征映射到LLM的探索还有很大提升空间。字节团队与中大合作提出的 ParGo 模型，通过巧妙地融合全局视野和局部细节，不仅在多项权威基准测试（Benchmark）中表现出色，成功入选了 AAAI 2025 。论文标题：ParGo: Bridging Vision-Language with Partial and Global Views 论文地址：https://arxiv.org/abs/2408.12928 代码地址：https://github.com/bytedance/ParGo 过去，大多数研究主要依赖线性投影或多层感知机（MLP）将视觉特征直接映射，这种方法难以有效控制输入LLMs的视觉token数量，特别是在处理细粒度特征时，导致计算成本极高。另一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博