主要观点总结
本文主要介绍了基于视觉传感器的感知方法,包括2D感知和3D感知,以及从深度学习在视觉感知中的应用。文章还详细描述了多目视觉系统的原理和难点,以及几个典型的多目系统。最后,文章以Tesla的全景感知系统为例,介绍了基于多目的全景感知系统的技术特点和实现方法。
关键观点总结
关键观点1: 视觉感知系统的分类和特点
视觉感知系统分为单目系统、双目系统、多目系统。2D感知任务通常采用的是单目系统,但自动驾驶感知最终需要的是3D输出。双目系统可以自然的获得视差,估计障碍物的距离,但对模式识别的依赖度较小,且存在某些缺点如关键点获取困难、计算量大等。
关键观点2: 多目系统的原理和难点
多目系统通过增加不同类别的传感器,如红外摄像头,来提高对各种环境条件的适应性。通过增加不同朝向、不同焦距的摄像头来扩展系统的视野范围。难点在于如何处理重叠区域中不一致的感知结果,以及设计合理的融合规则。
关键观点3: 典型的多目系统介绍
文章介绍了Mobileye的三目系统、Foresight的四目感知系统、NODAR的Hammerhead技术等典型的多目系统。
关键观点4: Tesla的全景感知系统
Tesla在AI Day上展示了纯视觉的FSD系统,采用多摄像头融合方案。其核心技术包括特征的空间变换、向量空间中的标注等。通过Transformer和Self-Attention等方式建立图像空间到向量空间的对应关系,解决特征的空间变换问题。通过3D场景下的标注、自动标注和模拟器等技术组合,构成完整的数据收集和标注系统。
文章预览
从输出维度的角度来看,基于视觉传感器的感知方法可以分为2D感知和3D感知两种。 从传感器的数量上看,视觉感知系统也分为单目系统,双目系统,以及多目系统。2D感知任务通常采用的是单目系统,这也是计算机视觉和深度学习结合最紧密的领域。但是自动驾驶感知最终需要的是3D输出,因此我们需要将2D的信息推广到3D。 在深度学习取得成功之前,通常的做法是根据目标的先验大小以及目标处于地平面上等假设来推断目标的深度(距离),或者采用运动信息进行深度估计(Motion Stereo)。有了深度学习的助力之后,从大数据集中学习场景线索,并进行单目深度估计成为了可行的方案。但是这种方案非常依赖于模式识别,而且很难处理数据集之外的场景(Corner Case)。比如施工路段的特殊工程车辆,由于数据库中很少出现或者根本没有此类样
………………………………