文章预览
23年6月 Nvidia 的论文“RVT: Robotic View Transformer for 3D Object Manipulation”。 对于 3D 目标操作,构建显式 3D 表征的方法比仅依赖相机图像的方法表现更好。但使用像体素这样的显式 3D 表征需要大量的计算成本,从而对可扩展性产生不利影响。 RVT ,是一种用于 3D 操作的多视图 Transformer,既可扩展又准确。RVT 的一些主要特性包括注意机制,用于跨视图聚合信息,以及重渲染来自机器人工作空间周围虚拟视图的相机输入。在模拟中,单个 RVT 模型在 18 个 RLBench 任务(249 个任务变化)中运行良好,比现有的最先进方法( PerAct )成功率高 26%。比 PerAct 快 36 倍的速度训练,实现相同的性能,并实现 PerAct 的 2.3 倍的推理速度。此外,RVT 可以在现实世界中执行各种操作任务,每个任务只需几次(∼10)次演示。 传统上,机器人控制策略的学习是通过低维状态观测
………………………………