文章预览
三维空间理解在现实世界中的诸多应用场景中至关重要,例如机器人技术、自动驾驶、虚拟现实以及医学影像等。近年来, 大型语言模型(LLMs) 在多个领域中展现出惊人的成功,被逐步应用于增强三维理解任务,显示出有望超越传统计算机视觉方法的潜力。 在本综述中,我们系统回顾了将大型语言模型与三维空间理解相结合的方法,提出了一套分类体系,将现有方法划分为三大类: 基于图像的方法 :通过二维视觉数据推理三维信息; 基于点云的方法 :直接处理三维表示数据; 多模态融合方法 :结合多种数据模态进行三维理解。 我们分别从这三大类出发,对具有代表性的方法进行了系统性梳理,涵盖了数据表示方式、架构改进、以及连接文本与三维模态的训练策略等关键技术点。 最后,我们讨论了当前面临的主要挑战,包括数据集匮乏与
………………………………