文章预览
点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我-> 领取近15个自动驾驶方向路线 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 >> 点击进入→ 自动驾驶Daily技术交流群 本文只做学术分享,如有侵权,联系删文 写在前面 & 笔者的个人理解 在具身任务中,代理需要在探索过程中全面理解3D场景,这迫切要求开发一种在线、实时、细粒度且泛化性强的3D感知模型。然而由于高质量的3D数据相对匮乏,直接在3D空间中训练此类模型几乎是不可能的任务。幸运的是,视觉基础模型(Vision Foundation Models, VFM)已经在2D计算机视觉领域取得了革命性的进展,这为使用VFM辅助3D感知成为可能。但是,目前大多数VFM辅助的3D感知方法要么无法在线使用,要么速度太慢,难以应用于实际的具身任务中。为此本文提出了一种名为Embod
………………………………