主要观点总结
本文主要讨论了训练资源有限的情况下,如何减少图片 token 数量来降低训练代价。文章通过对比 Q-former 和简单的 AdaptiveAveragePooling 方法,指出在资源有限的情况下,AdaptivePooling 是一种更简洁高效的方法。同时介绍了DeCo工作的核心思想和方法。
关键观点总结
关键观点1: Q-former结构的设计和问题
Q-former结构通过预定义的可学固定数量的Query tokens,融合来自image encoder的image token信息。其核心问题在于训练难度大,容易成为MLLM中的bottleneck,丢失重要的视觉信息。
关键观点2: DeCo工作的思路
DeCo工作的核心思想是减少图片token数时,不需要使用难学习的Q-former结构,而可以通过简单的下采样方式,如AdaptiveAveragePooling。这种方法训练收敛快,简洁高效,不需要很多训练数据。
关键观点3: AdaptivePooling的优势
AdaptivePooling在减少图片token数方面表现良好,可以保留图片的空间信息。与Q-former相比,其好处是无参、训练收敛快、简洁高效,并且不需要大量训练数据。
文章预览
↑ 点击 蓝字 关注极市平台 作者丨姚林丽 来源丨PaperWeekly 编辑丨极市平台 极市导读 训练资源有限的情况下(有限的 GPU、训练数据等),Q-former 也只是一个“低效”压缩器。如果想减少图片 token 数量来降低训练代价,简单的 AdaptiveAveragePooling 就够了。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 我们组最近的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。 论文链接: https://arxiv.org/abs/2405.20985 先说观点: 1. 训练资源足够的条件下,我们可以在多模态大语言模型中选择 Linear Projector/MLP,作为视觉-文本模态桥接器,即 LLaVA 的路线。Linear Projector 没有视觉信息损失、训练收敛快、表现也好。唯一的问题是会导致图片 token 序列很长,这在 GPU 等训练资源足够的情况下,
………………………………