文章预览
24年10月来自美国东北大学和Boston Dynamic公司的论文“Equivariant Diffusion Policy”。 扩散模型是学习行为克隆中演示数据产生的多模态分布的有效方法。然而,这种方法的一个缺点,是需要学习去噪函数,这比学习显式策略要复杂得多。等变扩散策略,是一种新扩散策略学习方法,它利用域对称性来获得更好的样本效率和去噪函数的泛化。本文从理论上分析全 6-DoF 控制的 SO(2) 对称性,并描述了扩散模型何时是 SO(2) 等变的。此外,在 MimicGen 中的一组 12 个模拟任务上对该方法进行了实证评估,并表明它的成功率平均比基线扩散策略高 21.9%。在现实世界系统上评估了该方法,表明可以使用相对较少的训练样本来学习有效的策略,而基线的扩散策略则不能。 扩散策略 [1] 将机器人操作动作预测公式化为扩散模型,该模型对基于观察的动作进行去噪,从而更好
………………………………