今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

VoxAct-B:基于体素双手操作的动作和稳定策略

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-02-04 03:43
    

文章预览

24年10月来自 USC 的论文“VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation”。 双手操作对许多机器人应用至关重要。与单臂操作相比,双手操作任务由于动作空间维数较高而更具挑战性。先前的研究利用大量数据和原始动作来解决这个问题,但可能会受到样本效率低下和在各种任务中的泛化有限的影响。为此,VoxAct-B,一种语言条件化、基于体素的方法,利用视觉语言模型 (VLM) 优先考虑场景中的关键区域并重建体素网格。这个体素网格提供给双手操作策略,学习动作和稳定的策略。这种方法可以更有效地从体素中学习策略,并且可以泛化到不同的任务。在模拟中,VoxAct-B 在细粒度双手操作任务上表现优于强基线。此外,使用两个 UR5 在现实世界“打开罐子”和“打开抽屉”任务上演示 VoxAct-B。项目的代码、数据和视频可在  https://voxact-b. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览