文章预览
23年11月来自清华、上海AI实验室和上海姚期智研究院的论文“Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning”。 本研究是让机器人具备物理上落地的任务规划能力。最近的进展表明,大语言模型 (LLM) 拥有丰富的知识,可用于机器人任务,尤其是在推理和规划方面。然而,LLM 受到一些限制,如缺乏世界落地和依赖外部affordance模型来感知环境信息,而这些信息无法与 LLM 联合推理。任务规划器应该是一个固有落地、统一的多模态系统。为此,引入 机器人视觉-语言规划 (ViLa) ,这是一种长范围机器人规划方法,它利用视觉语言模型 (VLM) 来生成一系列可操作的步骤。ViLa 将感知数据直接集成到其推理和规划过程中,从而能够深刻理解视觉世界中的常识知识,包括空间布局和目标属性。它还支持灵活的多模态目标规范并自然地融入视觉
………………………………