文章预览
24年6月(CoRL'24录用)来自华盛顿大学、AI2和Nvidia的论文“Manipulate-Anything: Automating Real-World Robots using Vision-Language Models”。 RT-1[1] 等大规模努力和 Open-X-Embodiment [2] 等广泛的社区努力促进了机器人演示数据规模的扩大。然而,仍有机会提高机器人演示数据的质量、数量和多样性。尽管视觉-语言模型已被证明可以自动生成演示数据,但它们的实用性仅限于具有特殊状态信息的环境,它们需要手工设计的技能,并且仅限于与少数目标实例的交互。 MANIPULATE-ANYTHING ,是一种可扩展的自动生成方法,用于现实世界的机器人操作。与之前的工作不同,该方法可以在现实世界环境中运行,无需任何特权状态信息和手工设计的技能,并且可以操纵任何静态目标。用两种设置评估该方法。首先,MANIPULATE-ANYTHING 成功地为所有 7 个现实世界任务和 14 个模拟任务生成轨迹
………………………………