今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

VidMan: 利用视频扩散模型中的隐动力学实现有效的机器人操控

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-21 00:12
    

文章预览

24年11月来自中山大学深圳分校、鹏城实验室和华为诺亚实验室的论文“VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation”。 利用大规模视频数据学习视频生成模型的最新进展表明,它在理解复杂物理动力学方面具有巨大潜力。它表明利用多样化的机器人轨迹数据来开发统一的动力学-觉察模型以增强机器人操纵的可行性。然而,考虑到可用的机器人数据量相对较少,直接拟合数据而不考虑视觉观察和动作之间的关系可能会导致数据利用率不理想。为此,提出 机器人操纵的视频扩散(VidMan) ,它采用受神经科学dual process 理论启发的两步训练机制,以增强稳定性和提高数据利用效率。具体来说,在第一步,VidMan 在 Open X-Embodiment 数据集(OXE)上进行预训练,以视频去噪扩散的方式预测未来的视觉轨迹,使模型能够发展对环境 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览