利用潜动作进行行为生成

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-09-10 00:08

文章预览

24年3月来自纽约大学、韩国首尔大学和的论文“Behavior Generation with Latent Actions”。从标记数据集生成复杂行为的生成模型，一直是决策领域的一个长期问题。与语言或图像生成不同，决策需要对动作进行建模——连续值向量，这些向量在分布上是多模态的，可能来自未经整理的来源，而生成错误可能会在顺序预测中加剧。最近出现的一类模型称为行为Transformer (BeT) ，它通过 k -均值聚类来离散化动作，捕获不同的模式，从而解决这一问题。然而，k -均值难以扩展到高维动作空间或长序列，并且缺乏梯度信息，因此 BeT 在建模长距离动作方面存在问题。这项工作提出矢量量化行为Transformer (VQ-BeT) ，这是一种用于行为生成的多功能模型，可处理多模态动作预测、条件生成和部分观察。VQ-BeT 通过使用分层矢量量化模块对连续动作进行token化来增强 BeT。在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博