专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
今天看啥  ›  专栏  ›  专知

如何赋予大型语言模型三维能力?—大型语言模型中的空间推理综述

专知  · 公众号  ·  · 2025-04-11 11:00
    

文章预览

三维空间理解在现实世界中的诸多应用场景中至关重要,例如机器人技术、自动驾驶、虚拟现实以及医学影像等。近年来, 大型语言模型(LLMs)  在多个领域中展现出惊人的成功,被逐步应用于增强三维理解任务,显示出有望超越传统计算机视觉方法的潜力。 在本综述中,我们系统回顾了将大型语言模型与三维空间理解相结合的方法,提出了一套分类体系,将现有方法划分为三大类: 基于图像的方法 :通过二维视觉数据推理三维信息; 基于点云的方法 :直接处理三维表示数据; 多模态融合方法 :结合多种数据模态进行三维理解。 我们分别从这三大类出发,对具有代表性的方法进行了系统性梳理,涵盖了数据表示方式、架构改进、以及连接文本与三维模态的训练策略等关键技术点。 最后,我们讨论了当前面临的主要挑战,包括数据集匮乏与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览