EgoMimic：通过以自我为中心的视频规模化模仿学习

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-11-20 00:15

文章预览

24年10月来自Georgia Tech和斯坦福的论文“EgoMimic: Scaling Imitation Learning via Egocentric Video”。模仿学习所需演示数据的规模和多样性是一项重大挑战。EgoMimic，是一个全栈框架，通过人类具身数据（特别是与 3D 手部跟踪配对的以自我为中心人类视频）规模化操作。EgoMimic 通过以下方式实现这一目标：（1）一个符合人体工程学的 Project Aria 眼镜去捕获人类具身数据的系统，（2）一种低成本的双手操纵器，可最大限度地缩小与人类数据的运动学差距，（3）跨域数据对齐技术，以及（4）一种在人类和机器人数据上共同训练的模仿学习架构。与仅从人类视频中提取高级意图的先前研究相比，该方法将人类和机器人数据平等地视为具身演示数据，并从两个数据源中学习统一的策略。与最先进的模仿学习方法相比，EgoMimic 在一系列多样化的长视界、单臂和双手操 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博