文章预览
导读 本文是VCC许琪乐同学对论文 ShapeLLM: Universal 3D Object Understanding for Embodied Interaction 的解读,该工作由西安交通大学、交叉信息核心技术研究院(西安)、北京大学、旷视科技、清华大学交叉信息研究院、上海人工智能实验室和上海期智研究院合作完成,已被发表在计算机视觉顶会ECCV 2024上。 项目主页: https://qizekun.github.io/shapellm/ 该工作提出了 一个为具身交互量身定做的多模态大模型 ,可以 支持单视角彩色点云输入 ,并在 3D几何理解和具身视觉定位 等多个方面超越了现有工作。 注:本文图片与视频均来自原论文与其项目主页。 I 引言 3D形状理解作为智能系统的核心能力,无论是在数字世界还是物理世界,都在图形学、计算机视觉、增强现实和具身机器人技术方面取得了显著进展。然而,想要在现实世界中有效应用这些技术,还需要
………………………………