今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Diffusion-ES:带扩散无梯度规划用于自动驾驶和零样本指令跟随

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-30 00:14
    

文章预览

24年7月来自CMU的论文“Diffusion-ES:Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following”。 扩散模型擅长为决策和控制建模复杂和多模态轨迹分布。最近提出奖励-梯度引导去噪,以生成最大化可微分奖励函数和一个扩散模型捕获的数据分布下似然的轨迹。奖励梯度引导去噪,需要一个适合干净和噪声样本的可微分奖励函数,这限制了它作为通用轨迹优化器的适用性。Diffusion-ES,是一种将无梯度优化与轨迹去噪相结合的方法,以优化黑盒子不可微分的目标,同时保持在数据流形中。Diffusion-ES 在进化搜索过程中从扩散模型中采样轨迹,并使用黑箱奖励函数对其进行评分。它使用截断扩散过程来变异高得分轨迹,该过程应用少量的噪声和去噪步骤,从而可以更有效地探索解空间。Diffusion-ES 在 nuPlan(一种成熟的自动驾驶闭环规划基 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览