讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

RDT-1B:双手操作机器人的扩散基础模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-25 00:49
    

文章预览

24年10月清华大学的论文"RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation"。 双手操作在机器人技术中至关重要,但由于协调两个机械臂(导致多模态动作分布)的固有复杂性以及训练数据的稀缺性,开发基础模型极具挑战性。本文提出 机器人扩散Transformer(RDT) ,一种用于双手操作的开创性扩散基础模型。RDT 以扩散模型为基础,有效地表示多模态,以可扩展的Transformer来处理多模态输入的异质性并捕获机器人数据的非线性和高频性。为了解决数据稀缺问题,引入物理上可解释的 统一动作空间 ,它可以统一各种机器人的动作表示,同时保留原始动作的物理意义,促进学习可迁移的物理知识。通过这些设计,在迄今为止最大的多机器人数据集上对 RDT 进行预训练,并将其扩展到 1.2B 参数,这是最大的基于扩散机器人操作基础模型。在自建多任务双手 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览