专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

FightingCV  · 公众号  ·  · 2024-09-21 09:00
    

文章预览

摘要 目前,受视觉语言模型 (VLMs) 成功启发,越来越多的研究人员专注于改进 VLMs,并取得了可喜的成果。 然而,大多数现有方法集中于优化连接器和增强语言模型组件,而忽略了对视觉编码器本身的改进。 相反,我们在本文中提出了文本引导的 LLaVA (TG-LLaVA),它通过文本引导视觉编码器来优化 VLMs,提供了一个新的、正交的优化方向。 具体来说,受人类行为中固有的目标驱动逻辑的启发,我们使用可学习的潜在嵌入作为桥梁来分析文本指令,并将分析结果添加到视觉编码器中作为指导,对其进行细化。 随后,另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。 最后,在文本的指导下,视觉编码器可以提取与文本相关的特征,类似于人类在考虑问题时如何关注图像中最相关的部分。 这导致生成更好的答案。  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览