将视觉标记压缩了75%至89% ：TokenPacker 如何优化多模态大型语言模型？

集智书童 · 公众号 · · 2024-07-13 09:00

文章预览

点击下方卡片，关注「AI视界引擎」公众号 ( 添加时备注：方向+学校/公司+昵称/姓名 ) 视觉投影器在多模态大型语言模型（MLLM）中扮演着视觉编码器与大型语言模型（LLM）之间的关键桥梁角色。通常，MLLM采用简单的多层感知机（MLP）通过一对一的转换保留所有视觉上下文。然而，视觉标记具有冗余性，在处理高分辨率图像时，其数量会显著增加，这大大降低了MLLM的效率。一些近期的研究引入了重采样器或抽象器来减少生成的视觉标记数量。不幸的是，它们未能捕捉到更精细的细节，并削弱了MLLM的视觉推理能力。在这项工作中，作者提出了一种新颖的视觉投影器，它采用从粗到细的方案注入丰富的特性以生成简化的视觉标记。具体来说，作者首先将视觉特征插值为低分辨率的点 Query ，提供了整体的视觉表示作为基础。然后，作者引入了一个区 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博