专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

将视觉标记压缩了75%至89% :TokenPacker 如何优化多模态大型语言模型 ?

arXiv每日学术速递  · 公众号  ·  · 2024-07-12 11:49

文章预览

视觉投影器在多模态大型语言模型(MLLM)中扮演着视觉编码器与大型语言模型(LLM)之间的关键桥梁角色。通常,MLLM采用简单的多层感知机(MLP)通过一对一的转换保留所有视觉上下文。 然而,视觉标记具有冗余性,在处理高分辨率图像时,其数量会显著增加,这大大降低了MLLM的效率。一些近期的研究引入了重采样器或抽象器来减少生成的视觉标记数量。 不幸的是,它们未能捕捉到更精细的细节,并削弱了MLLM的视觉推理能力。在这项工作中,作者提出了一种新颖的视觉投影器,它采用从粗到细的方案注入丰富的特性以生成简化的视觉标记。 具体来说,作者首先将视觉特征插值为低分辨率的点 Query ,提供了整体的视觉表示作为基础。然后,作者引入了一个区域到点的注入模块,该模块利用高分辨率、多级基于区域的线索作为细粒度的参考键和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览