注册
登录
专栏名称:
FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
Vogue Business
·
时尚品牌们的 “必争之地”,秀场正在发生什么变化?
·
3 天前
Vogue Business
·
时尚品牌们的 “必争之地”,秀场正在发生什么变化?
·
3 天前
葛洲坝国际
·
传递温暖,我们在秘鲁送祝福
·
3 天前
志公教育
·
月薪近7000元,五险一金,中职起报,部分不 ...
·
3 天前
今天看啥
›
专栏
›
FightingCV
TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA
FightingCV
·
公众号
· · 2024-09-21 09:00
文章预览
摘要 目前,受视觉语言模型 (VLMs) 成功启发,越来越多的研究人员专注于改进 VLMs,并取得了可喜的成果。 然而,大多数现有方法集中于优化连接器和增强语言模型组件,而忽略了对视觉编码器本身的改进。 相反,我们在本文中提出了文本引导的 LLaVA (TG-LLaVA),它通过文本引导视觉编码器来优化 VLMs,提供了一个新的、正交的优化方向。 具体来说,受人类行为中固有的目标驱动逻辑的启发,我们使用可学习的潜在嵌入作为桥梁来分析文本指令,并将分析结果添加到视觉编码器中作为指导,对其进行细化。 随后,另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。 最后,在文本的指导下,视觉编码器可以提取与文本相关的特征,类似于人类在考虑问题时如何关注图像中最相关的部分。 这导致生成更好的答案。 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
Vogue Business
·
时尚品牌们的 “必争之地”,秀场正在发生什么变化?
3 天前
Vogue Business
·
时尚品牌们的 “必争之地”,秀场正在发生什么变化?
3 天前
葛洲坝国际
·
传递温暖,我们在秘鲁送祝福
3 天前
志公教育
·
月薪近7000元,五险一金,中职起报,部分不限专业,北海市企事业单位招聘
3 天前
研途星辰
·
论文配色:跟着顶刊学配色(Science篇)
4 月前
智源社区
·
活动报名丨智源Workshop,从o1出发探索LLM推理与思维链
3 月前
游戏家联盟
·
「黑色沙漠」水晶怎么配?总计5套方案,PVE/PVP、刷猎场、刷经验都有绝配!
1 月前
龙视新闻在线
·
喻怀斌接受监察调查
昨天