视觉落地研究的综述_大语言模型和具身智体及自动驾驶的专栏文章_微信文章

专栏名称: 大语言模型和具身智体及自动驾驶

讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

文章预览

24年12月来自中科院自动化所、深圳鹏城实验室和中科院大学的论文“Towards Visual Grounding: A Survey”。视觉落地（visual grounding）又称为参考表达理解和短语落地。它涉及根据给定的文本描述在图像中定位数个特定区域。此任务的目标是模拟社交对话中普遍存在的参考关系，使机器具备类似人类的多模态理解能力。因此，它在各个领域都有广泛的应用。然而，自 2021 年以来，视觉落地取得重大进展，出现了诸如落地的预训练、基础多模态 LLM、广义视觉落地和千兆像素落地等新概念，这些概念带来许多新挑战。首先研究视觉落地的发展历史，并概述必要的背景知识，包括基本概念和评估指标。系统地跟踪和总结进展，并精心组织视觉落地中的各种设置，从而建立这些设置的精确定义，以规范未来的研究并确保公平的比较。此外，深入研究几个高级主 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博