文章预览
↑ 点击 蓝字 关注极市平台 作者丨许修为 来源丨CVer 编辑丨极市平台 极市导读 本文介绍了一种名为 TSP3D 的高效 3D 视觉定位框架,通过语言引导的空间剪枝和多层稀疏卷积架构,实现了高精度和快速推理,在 ScanRefer 和 ReferIt3D 数据集上达到了 SOTA 性能,同时显著提升了推理速度。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 很开心我们最近的工作拿到了CVPR的满分,这也是继 DSPDet3D 之后三维空间剪枝在3DVG任务中的一次成功的尝试。在这篇文章中,我们提出了TSP3D,一个高效的3D视觉定位(3D Visual Grounding)框架,在性能和推理速度上均达到SOTA。此外,文中还包含了我们将三维稀疏卷积引入3D Visual Grounding任务中遇到的挑战,以及我们的探索和思考。 Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding 论文: https://arxiv.org/abs/2502.10392 代码
………………………………