文章预览
Abstract 作为一种新颖的3D场景表示,语义占据(semantic occupancy)在自动驾驶领域引起了广泛关注。然而,现有的占据预测方法主要集中于设计更好的占据表示形式,例如三视角(tri-perspective view)或神经辐射场(NeRF),而忽视了利用长时段信息的优势。本文提出了一种雷达-摄像头多模态时域增强占据预测网络,称为 TEOcc。我们的方法受益于3D目标检测中利用时域信息的成功经验。具体来说,我们引入了一个时域增强分支,用于学习时域占据预测。在该分支中,我们随机丢弃多视角摄像头的第 t-k 帧,通过长时和短时时域解码器分别利用其他相邻帧及多模态输入信息来预测其3D占据。此外,为了减少计算成本并整合多模态输入,我们特别设计了用于长时和短时时域解码器的3D卷积层。此外,由于轻量化的占据预测头是一个密集分类头,我们提出使用一
………………………………