专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

NeRF与Occ能怎么结合?HybridOcc也许是个答案

arXiv每日学术速递  · 公众号  ·  · 2024-08-21 12:10
    

主要观点总结

本文提出了一种基于Transformer和神经辐射场(NeRF)的混合方法(HybridOcc),用于解决自动驾驶场景中的三维语义场景补全(SSC)问题。该方法结合了Transformer框架和NeRF表示生成的三维体积查询建议,在一个由粗到细的SSC预测框架中进行优化。HybridOcc通过基于混合查询建议的Transformer范式聚合上下文特征,并结合NeRF表示获得深度监督。新设计的NeRF分支通过体积渲染隐式推断场景占用情况,包括可见和不可见的体素,并显式捕获场景深度而非生成RGB颜色。此外,还提出了一种创新的占用感知光线采样方法,以引导SSC任务而非仅关注场景表面,从而提高整体性能。在nuScenes和SemanticKITTI数据集上的实验证明了HybridOcc在SSC任务中的有效性。

关键观点总结

关键观点1: 领域背景介绍

介绍了基于视觉的3D语义场景补全(SSC)在自动驾驶中的重要性及其挑战,包括从有限的观测视角推断出全面的语义场景的难题。

关键观点2: 相关工作介绍

概述了先前的工作,包括基于深度预测网络的方法和基于NeRF表示的方法,并指出了现有方法的不足。

关键观点3: HybridOcc方法介绍

详细介绍了HybridOcc的总体流程,包括Transformer分支和NeRF分支的设计,以及混合查询建议的生成。

关键观点4: 实验结果对比

在nuScenes和SemanticKITTI数据集上进行了实验,并与其他方法进行了比较,证明了HybridOcc的有效性。


文章预览

写在前面 基于视觉的3D语义场景补全(SSC)通过3D volume表示来描述自动驾驶场景。然而,场景表面对不可见体素的遮挡给当前SSC方法在幻想精细3D几何形状方面带来了挑战。这里提出了一种名为HybridOcc的混合方法,该方法结合了Transformer框架和NeRF表示生成的3D volume查询建议,并在一个由粗到细的SSC预测框架中进行优化。HybridOcc通过基于混合查询建议的Transformer范式来聚合上下文特征,同时结合NeRF表示来获得深度监督。Transformer分支包含多个尺度,并使用空间交叉注意力进行2D到3D的转换。新设计的NeRF分支通过volume渲染隐式推断场景占用情况,包括可见和不可见的体素,并显式捕获场景深度而非生成RGB颜色。此外还提出了一种创新的占用感知光线采样方法,以引导SSC任务而非仅关注场景表面,从而进一步提高整体性能。在nuScenes和SemanticKITTI数据集上进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览