如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

专知 · 公众号 · · 2025-04-11 11:00

文章预览

三维空间理解在现实世界中的诸多应用场景中至关重要，例如机器人技术、自动驾驶、虚拟现实以及医学影像等。近年来，大型语言模型（LLMs）在多个领域中展现出惊人的成功，被逐步应用于增强三维理解任务，显示出有望超越传统计算机视觉方法的潜力。在本综述中，我们系统回顾了将大型语言模型与三维空间理解相结合的方法，提出了一套分类体系，将现有方法划分为三大类：基于图像的方法：通过二维视觉数据推理三维信息；基于点云的方法：直接处理三维表示数据；多模态融合方法：结合多种数据模态进行三维理解。我们分别从这三大类出发，对具有代表性的方法进行了系统性梳理，涵盖了数据表示方式、架构改进、以及连接文本与三维模态的训练策略等关键技术点。最后，我们讨论了当前面临的主要挑战，包括数据集匮乏与 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博