讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

3D 扩散策略:简单 3D 表示进行可泛化视觉运动的策略学习

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-24 00:04
    

文章预览

24年6月来自上海姚期智研究院、上海交大、清华和上海AI实验室的论文“3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations”。 模仿学习为教授机器人灵巧技能提供了一种有效的方法;然而,稳健且可泛化地学习复杂技能通常需要大量的人工演示。为了解决这个具有挑战性的问题,提出 3D 扩散策略 (DP3) ,这是一种视觉模仿学习方法,它将 3D 视觉表征的强大功能融入扩散策略(一类条件动作生成模型)。DP3 的核心设计是利用紧凑的 3D 视觉表征,其通过高效的点编码器从稀疏点云中提取。在涉及 72 项模拟任务的实验中,DP3 仅用 10 次演示就成功处理了大多数任务,并以 24.2% 的相对改进超越了基线。在 4 个真实的机器人任务中,DP3 展示精确的控制,每个任务仅需 40 次演示就能以 85% 的高成功率实现,并且在空间、视点、外观和实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览