交叉扩散：通过自监督学习改进基于扩散的视觉运动策略

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-09-24 00:04

文章预览

24年1月来自纽约州 Stony Brook U 的论文“Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”。序列建模方法在机器人模仿学习中已显示出良好的效果。最近，扩散模型已被用于以序列建模方式进行行为克隆，这得益于它们在建模复杂数据分布方面的卓越能力。基于扩散的标准策略以输入状态为条件，从随机噪声中迭代生成动作序列。尽管如此，扩散策略模型在视觉表示方面还可以进一步改进。这项工作提出交叉扩散（Crossway Diffusion），一种简单有效的方法，通过设计的状态解码器和辅助的自监督学习 (SSL) 目标来增强基于扩散的视觉运动策略学习。状态解码器从反向扩散过程的中间表示中重建原始图像像素和其他状态信息。整个模型由 SSL 目标和原始扩散损失共同优化。实验证明交叉扩散在各种模拟和现实世界机器人任务中的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博