聊聊生成扩散策略算法归纳整理：优势与挑战

自动驾驶之心 · 公众号 · · 2024-12-16 07:30

文章预览

作者 | 陈陈编辑 | 自动驾驶之心原文链接：https://zhuanlan.zhihu.com/p/6223910015 点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『扩散模型』技术交流群本文只做学术分享，如有侵权，联系删文记得两年前刚投稿ICLR时，扩散策略（Diffusion Policy）还基本是一个纯理论的概念，全网只有寥寥两三篇arxiv，而现在它俨然已成为RL和具身领域的“显学”了。组里目前也在探索大规模扩散通用具身智能体的构建（RDT-1B）。最近闲了点，打算梳理一下近两年领域的理论进展，也算总结下自己研究的心路历程，做个宣传。要回答的问题：扩散策略究竟“好”在哪？扩散模型引入RL，带来的本质挑战和核心难点（坑）是什么？总结Diffusion Policy的经典RL优化算法。以我自己的工作为主线， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博