讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

利用潜动作进行行为生成

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-10 00:08
    

文章预览

24年3月来自纽约大学、韩国首尔大学和的论文“Behavior Generation with Latent Actions”。 从标记数据集生成复杂行为的生成模型,一直是决策领域的一个长期问题。与语言或图像生成不同,决策需要对动作进行建模——连续值向量,这些向量在分布上是多模态的,可能来自未经整理的来源,而生成错误可能会在顺序预测中加剧。最近出现的一类模型称为 行为Transformer (BeT) ,它通过 k -均值聚类来离散化动作,捕获不同的模式,从而解决这一问题。然而,k -均值难以扩展到高维动作空间或长序列,并且缺乏梯度信息,因此 BeT 在建模长距离动作方面存在问题。这项工作提出 矢量量化行为Transformer (VQ-BeT) ,这是一种用于行为生成的多功能模型,可处理多模态动作预测、条件生成和部分观察。VQ-BeT 通过使用分层矢量量化模块对连续动作进行token化来增强 BeT。在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览