ECCV 2024 | SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

CVer · 公众号 · · 2024-10-27 23:59

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/多模态/扩散】交流群添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！论文： https://arxiv.org/abs/2407.03200 代码：github.com/WeitaiKang/SegVG 动机视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。已有的研究大致可以分为三类:两阶段方法、单阶段方法和基于变换器(Transformer)的方法。尽管这些方法取得了良好的效果，但在注释的利用上仍显得不足，尤其是仅将框注释作为回归的真值样本，限制了模型的性能表 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

终极较量 · 关于解放军在台海的演习，台湾有人终于说到点子上了

昨天

终极较量 · 84岁佩洛西在卢森堡，从楼梯摔下来…

4 天前

长安街知事 · 清华大学新增一位校领导

5 天前

长安街知事 · 官方通报：4名过路群众受轻微伤

5 天前

大上科技 · 【618大促&抽奖】抽送一台DASUNG大上科技10.3英寸双功能墨水屏平板Not-eReader 103，心动不？

6 月前

CATL宁德时代 · 官宣即量产，长安、宁德时代、时代电服举行换电项目签约仪式

3 周前

CATL宁德时代 · 官宣即量产，长安、宁德时代、时代电服举行换电项目签约仪式

3 周前

凤凰网财经 · 一男子被骗60万元！炒股也现“杀猪盘”

2 周前