专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

AAAI 2025|如何高效桥接视觉和语言,字节&中大提出全新多模态大模型连接器ParGo

我爱计算机视觉  · 公众号  ·  · 2025-01-17 22:20
    

文章预览

关注公众号,发现CV技术之美 在多模态大语言模型(MLLMs)的发展中,视觉-语言连接器作为将视觉特征映射到LLM语言空间的关键组件,起到了桥梁作用。 因此,它几乎成为了所有多模态大语言模型中不可或缺的结构之一。然而,如何高效地将视觉特征映射到LLM的探索还有很大提升空间。 字节团队与中大合作提出的 ParGo 模型,通过巧妙地融合全局视野和局部细节,不仅在多项权威基准测试(Benchmark)中表现出色,成功入选了 AAAI 2025 。 论文标题:ParGo: Bridging Vision-Language with Partial and Global Views 论文地址:https://arxiv.org/abs/2408.12928 代码地址:https://github.com/bytedance/ParGo 过去,大多数研究主要依赖线性投影或多层感知机(MLP)将视觉特征直接映射,这种方法难以有效控制输入LLMs的视觉token数量,特别是在处理细粒度特征时,导致计算成本极高。 另一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览