讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

OKAMI:通过单一视频的模仿教授人形机器人操作技能

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-07 00:23
    

文章预览

24年10月来自UT Austin和Nvidia的论文“OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation”。 OKAMI,是一种从单个 RGB-D 视频生成操作规划并得出执行策略的方法。方法的核心是目标-觉察的重定向,这使人形机器人能够模仿 RGB-D 视频中的人体运动,同时在部署期间调整到不同的目标位置。OKAMI 使用开放世界视觉模型来识别与任务相关的目标,并分别重定位身体运动和手势。实验表明,OKAMI 在不同的视觉和空间条件下实现了强大的泛化,在从观察中进行开放世界模仿方面的表现优于最先进的基线。此外,OKAMI 推出轨迹可用于训练闭环视觉运动策略,平均成功率达到 79.2%,这样无需劳动密集型的远程操作。 部署通用机器人来协助完成日常任务需要它们在自然环境中自主操作。随着硬件设计的最新进展和商业可用性的提高,人形机器人成为人类 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览