专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

NeurIPS 2024|机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

极市平台  · 公众号  ·  · 2024-11-01 22:00
    

主要观点总结

本文介绍了一种全新的原语驱动的路径点感知世界模型,该模型由中山大学和华为诺亚等单位的研究团队提出。借助VLMs作为机器人的大脑,该模型能理解任务间的动作关联性,并通过“世界模型”获取对未来动作的表征,从而帮助机器人更好地学习和决策。该模型显著提升了机器人的学习能力,并保持良好的泛化性。

关键观点总结

关键观点1: 研究背景

当前机器人操作任务存在两个问题:模型在开放世界中表现差且不稳定,以及计算效率低。为此,研究团队提出了PIVOT-R模型。

关键观点2: PIVOT-R模型的核心特点

PIVOT-R模型通过原语动作解析、路径点预测、动作预测模块和异步分层执行器等步骤,解决现有机器人操作任务的问题。

关键观点3: PIVOT-R模型的具体实现

PIVOT-R使用预训练的视觉-语言模型(VLM)解析用户语言指令,将复杂的自然语言指令转换为一组简单的原语动作。然后通过路径点预测和动作预测模块,生成具体的低层次机器人动作。此外,PIVOT-R还引入了一个异步分层执行器,提高执行速度。

关键观点4: 实验与结果

作者在SeaWave仿真环境和真实环境下进行实验,PIVOT-R在仿真环境和真实环境都取得了最优的效果,同时模型的速度与其他方法相近。

关键观点5: 研究总结

PIVOT-R通过引入原语动作驱动的路径点感知,显著提升了机器人在复杂操控任务中的性能,为机器人学习提供了一个新范式。


文章预览

↑ 点击 蓝字  关注极市平台 作者丨机器之心 来源丨机器之心 编辑丨极市平台 极市导读   来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型,借助 VLMs 作为机器人的大脑,理解任务之间的动作关联性,并通过 “世界模型” 获取对未来动作的表征,从而更好地帮助机器人学习和决策。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 对于人类而言,一旦掌握了 “打开瓶盖” 的动作,面对 “拧紧螺丝” 这样的任务通常也能游刃有余,因为这两者依赖于相似的手部动作。然而,对于机器人来说,即使是这样看似简单的任务转换依然充满挑战。例如,换成另一种类型的瓶盖,机器人可能无法成功打开。这表明,目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑,而只是单纯的依赖于数据拟 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览