讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

视觉落地研究的综述

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-01-23 00:07
    

文章预览

24年12月来自中科院自动化所、深圳鹏城实验室和中科院大学的论文“Towards Visual Grounding: A Survey”。 视觉落地(visual grounding) 又称为 参考表达理解和短语落地 。它涉及根据给定的文本描述在图像中定位数个特定区域。此任务的目标是模拟社交对话中普遍存在的参考关系,使机器具备类似人类的多模态理解能力。因此,它在各个领域都有广泛的应用。然而,自 2021 年以来,视觉落地取得重大进展,出现了诸如落地的预训练、基础多模态 LLM、广义视觉落地和千兆像素落地等新概念,这些概念带来许多新挑战。首先研究视觉落地的发展历史,并概述必要的背景知识,包括基本概念和评估指标。系统地跟踪和总结进展,并精心组织视觉落地中的各种设置,从而建立这些设置的精确定义,以规范未来的研究并确保公平的比较。此外,深入研究几个高级主 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览