主要观点总结
本文提出了一种基于Transformer和神经辐射场(NeRF)的混合方法(HybridOcc),用于解决自动驾驶场景中的三维语义场景补全(SSC)问题。该方法结合了Transformer框架和NeRF表示生成的三维体积查询建议,在一个由粗到细的SSC预测框架中进行优化。HybridOcc通过基于混合查询建议的Transformer范式聚合上下文特征,并结合NeRF表示获得深度监督。新设计的NeRF分支通过体积渲染隐式推断场景占用情况,包括可见和不可见的体素,并显式捕获场景深度而非生成RGB颜色。此外,还提出了一种创新的占用感知光线采样方法,以引导SSC任务而非仅关注场景表面,从而提高整体性能。在nuScenes和SemanticKITTI数据集上的实验证明了HybridOcc在SSC任务中的有效性。
关键观点总结
关键观点1: 领域背景介绍
介绍了基于视觉的3D语义场景补全(SSC)在自动驾驶中的重要性及其挑战,包括从有限的观测视角推断出全面的语义场景的难题。
关键观点2: 相关工作介绍
概述了先前的工作,包括基于深度预测网络的方法和基于NeRF表示的方法,并指出了现有方法的不足。
关键观点3: HybridOcc方法介绍
详细介绍了HybridOcc的总体流程,包括Transformer分支和NeRF分支的设计,以及混合查询建议的生成。
关键观点4: 实验结果对比
在nuScenes和SemanticKITTI数据集上进行了实验,并与其他方法进行了比较,证明了HybridOcc的有效性。
文章预览
写在前面 基于视觉的3D语义场景补全(SSC)通过3D volume表示来描述自动驾驶场景。然而,场景表面对不可见体素的遮挡给当前SSC方法在幻想精细3D几何形状方面带来了挑战。这里提出了一种名为HybridOcc的混合方法,该方法结合了Transformer框架和NeRF表示生成的3D volume查询建议,并在一个由粗到细的SSC预测框架中进行优化。HybridOcc通过基于混合查询建议的Transformer范式来聚合上下文特征,同时结合NeRF表示来获得深度监督。Transformer分支包含多个尺度,并使用空间交叉注意力进行2D到3D的转换。新设计的NeRF分支通过volume渲染隐式推断场景占用情况,包括可见和不可见的体素,并显式捕获场景深度而非生成RGB颜色。此外还提出了一种创新的占用感知光线采样方法,以引导SSC任务而非仅关注场景表面,从而进一步提高整体性能。在nuScenes和SemanticKITTI数据集上进
………………………………