讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

EgoMimic:通过以自我为中心的视频规模化模仿学习

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-20 00:15
    

文章预览

24年10月来自Georgia Tech和斯坦福的论文“EgoMimic: Scaling Imitation Learning via Egocentric Video”。 模仿学习所需演示数据的规模和多样性是一项重大挑战。EgoMimic,是一个全栈框架,通过人类具身数据(特别是与 3D 手部跟踪配对的以自我为中心人类视频)规模化操作。EgoMimic 通过以下方式实现这一目标:(1)一个符合人体工程学的 Project Aria 眼镜去捕获人类具身数据的系统,(2)一种低成本的双手操纵器,可最大限度地缩小与人类数据的运动学差距,(3)跨域数据对齐技术,以及(4)一种在人类和机器人数据上共同训练的模仿学习架构。与仅从人类视频中提取高级意图的先前研究相比,该方法将人类和机器人数据平等地视为具身演示数据,并从两个数据源中学习统一的策略。与最先进的模仿学习方法相比,EgoMimic 在一系列多样化的长视界、单臂和双手操 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览