RVT-2：通过少量演示学习精确操作

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-17 05:59

文章预览

24年6月来自Nvidia的论文“RVT-2: Learning Precise Manipulation from Few Demonstrations”。本工作研究如何构建一个机器人系统，该系统可以根据语言指令解决多个 3D 操作任务。为了在工业和家庭领域发挥作用，这样的系统应该能够通过少量演示学习新任务并精确解决它们。先前的研究，如 PerAct [40] 和 RVT [17]，已经研究过这个问题，但它们在执行需要高精度的任务时往往举步维艰。本文研究如何使它们更有效、更精确、更快速。通过结合架构和系统级改进，提出的 RVT-2，是一个多任务 3D 操作模型，与前身 RVT 相比，它的训练速度提高 6 倍，推理速度提高 2 倍。RVT-2 在 RLBench [24] 上取得新的最高水平，将成功率从 65% 提高到了 82%。RVT-2 在现实世界中也很有效，它只需 10 次演示就可以学习需要高精度的任务，例如拿起和插入插头。机器人学习的终极目标之一是构建 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博