讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Diffusion-VLA:通过统一扩散和自回归扩展机器人基础模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-21 00:12
    

文章预览

24年12月来自华东师范、美的空调和上海大学的论文“Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression”。 DiVLA,是一个将自回归模型与扩散模型无缝结合用于学习视觉运动策略的框架。方法的核心是下一个token预测目标,使模型能够在当前观察的背景下有效地推理用户的查询。随后,附加扩散模型以生成强大的动作输出。为了通过自我推理增强策略学习,引入一个推理注入模块,将推理短语直接集成到策略学习过程中。整个框架简单灵活,易于部署和升级。 用多个真实机器人进行广泛的实验,验证 DiVLA 的有效性。测试包括一项具有挑战性的工厂分类任务,其中 DiVLA 成功地对目标进行了分类,包括训练期间未见过的目标。推理模块增强了可解释性,使观察者能够理解模型的思维过程并确定策略失败的潜在原因。此外,在零样本拾 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览