TG-LLaVA｜沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

FightingCV · 公众号 · · 2024-09-21 09:00

文章预览

摘要目前，受视觉语言模型 (VLMs) 成功启发，越来越多的研究人员专注于改进 VLMs，并取得了可喜的成果。然而，大多数现有方法集中于优化连接器和增强语言模型组件，而忽略了对视觉编码器本身的改进。相反，我们在本文中提出了文本引导的 LLaVA (TG-LLaVA)，它通过文本引导视觉编码器来优化 VLMs，提供了一个新的、正交的优化方向。具体来说，受人类行为中固有的目标驱动逻辑的启发，我们使用可学习的潜在嵌入作为桥梁来分析文本指令，并将分析结果添加到视觉编码器中作为指导，对其进行细化。随后，另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。最后，在文本的指导下，视觉编码器可以提取与文本相关的特征，类似于人类在考虑问题时如何关注图像中最相关的部分。这导致生成更好的答案。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

昆明发布 · 搭乘无人机瞰昆明，预计年内可实现！

13 小时前

昆明信息港 · 枪响，击毙！

17 小时前

918云南交通台 · 雷军、刘德华都成受害者！央视曝光！

2 天前

春城晚报 · 揪心！他突发重病进ICU抢救！此前曾感动全网

3 天前

云南网 · 冰面突然碎裂！2名游客贸然进入昆明轿子山冰湖玩耍遇险

3 天前

CTR媒介动量 · 【广播广告观察】2024年1-5月广播广告刊例花费同比下跌5.6%

7 月前

育学园 · 不胖却有「小肚子」，当心这4种问题！尤其最后一种，你要早点知道

4 月前