讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

MANIPULATE-ANYTHING:利用视觉语言模型实现现实世界机器人的自动化

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-08 00:26
    

文章预览

24年6月(CoRL'24录用)来自华盛顿大学、AI2和Nvidia的论文“Manipulate-Anything: Automating Real-World Robots using Vision-Language Models”。 RT-1[1] 等大规模努力和 Open-X-Embodiment [2] 等广泛的社区努力促进了机器人演示数据规模的扩大。然而,仍有机会提高机器人演示数据的质量、数量和多样性。尽管视觉-语言模型已被证明可以自动生成演示数据,但它们的实用性仅限于具有特殊状态信息的环境,它们需要手工设计的技能,并且仅限于与少数目标实例的交互。 MANIPULATE-ANYTHING ,是一种可扩展的自动生成方法,用于现实世界的机器人操作。与之前的工作不同,该方法可以在现实世界环境中运行,无需任何特权状态信息和手工设计的技能,并且可以操纵任何静态目标。用两种设置评估该方法。首先,MANIPULATE-ANYTHING 成功地为所有 7 个现实世界任务和 14 个模拟任务生成轨迹 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览