VidMan: 利用视频扩散模型中的隐动力学实现有效的机器人操控

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-12-21 00:12

文章预览

24年11月来自中山大学深圳分校、鹏城实验室和华为诺亚实验室的论文“VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation”。利用大规模视频数据学习视频生成模型的最新进展表明，它在理解复杂物理动力学方面具有巨大潜力。它表明利用多样化的机器人轨迹数据来开发统一的动力学-觉察模型以增强机器人操纵的可行性。然而，考虑到可用的机器人数据量相对较少，直接拟合数据而不考虑视觉观察和动作之间的关系可能会导致数据利用率不理想。为此，提出机器人操纵的视频扩散（VidMan），它采用受神经科学dual process 理论启发的两步训练机制，以增强稳定性和提高数据利用效率。具体来说，在第一步，VidMan 在 Open X-Embodiment 数据集（OXE）上进行预训练，以视频去噪扩散的方式预测未来的视觉轨迹，使模型能够发展对环境 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

能源新媒 · 电力市场快评 | 电力长协降价，低电价周期来了？

21 小时前

能源新媒 · 电力市场快评 | 电力长协降价，低电价周期来了？

21 小时前

南方能源观察 · 短时电价飙升，德国能源转型“内外交困”

2 天前

中国能源报 · 欧洲冬季能源供应再现危机

2 天前

中国能源报 · 欧洲冬季能源供应再现危机

2 天前

南方能源观察 · eo能源词条｜什么是“零废风机”？

3 天前

老井扯鸡蛋 · 老井蛋鸡预混料，一袋拌一吨只要160元，包邮包卸货！！

2 周前