讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

三思而后行:ViLa 揭示GPT-4V 在机器人视觉-语言规划中的强大功能

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-22 00:05

文章预览

23年11月来自清华、上海AI实验室和上海姚期智研究院的论文“Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning”。 本研究是让机器人具备物理上落地的任务规划能力。最近的进展表明,大语言模型 (LLM) 拥有丰富的知识,可用于机器人任务,尤其是在推理和规划方面。然而,LLM 受到一些限制,如缺乏世界落地和依赖外部affordance模型来感知环境信息,而这些信息无法与 LLM 联合推理。任务规划器应该是一个固有落地、统一的多模态系统。为此,引入 机器人视觉-语言规划 (ViLa) ,这是一种长范围机器人规划方法,它利用视觉语言模型 (VLM) 来生成一系列可操作的步骤。ViLa 将感知数据直接集成到其推理和规划过程中,从而能够深刻理解视觉世界中的常识知识,包括空间布局和目标属性。它还支持灵活的多模态目标规范并自然地融入视觉 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览