专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

为什么最近多模态大模型工作中用Q-Former结构的变少了?

极市平台  · 公众号  ·  · 2024-08-17 22:00
    

主要观点总结

本文主要讨论了训练资源有限的情况下,如何减少图片 token 数量来降低训练代价。文章通过对比 Q-former 和简单的 AdaptiveAveragePooling 方法,指出在资源有限的情况下,AdaptivePooling 是一种更简洁高效的方法。同时介绍了DeCo工作的核心思想和方法。

关键观点总结

关键观点1: Q-former结构的设计和问题

Q-former结构通过预定义的可学固定数量的Query tokens,融合来自image encoder的image token信息。其核心问题在于训练难度大,容易成为MLLM中的bottleneck,丢失重要的视觉信息。

关键观点2: DeCo工作的思路

DeCo工作的核心思想是减少图片token数时,不需要使用难学习的Q-former结构,而可以通过简单的下采样方式,如AdaptiveAveragePooling。这种方法训练收敛快,简洁高效,不需要很多训练数据。

关键观点3: AdaptivePooling的优势

AdaptivePooling在减少图片token数方面表现良好,可以保留图片的空间信息。与Q-former相比,其好处是无参、训练收敛快、简洁高效,并且不需要大量训练数据。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨姚林丽 来源丨PaperWeekly 编辑丨极市平台 极市导读   训练资源有限的情况下(有限的 GPU、训练数据等),Q-former 也只是一个“低效”压缩器。如果想减少图片 token 数量来降低训练代价,简单的 AdaptiveAveragePooling 就够了。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 我们组最近的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。 论文链接: https://arxiv.org/abs/2405.20985 先说观点: 1. 训练资源足够的条件下,我们可以在多模态大语言模型中选择 Linear Projector/MLP,作为视觉-文本模态桥接器,即 LLaVA 的路线。Linear Projector 没有视觉信息损失、训练收敛快、表现也好。唯一的问题是会导致图片 token 序列很长,这在 GPU 等训练资源足够的情况下, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览