今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

以自我中心的视觉语言规划

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-13 02:19
    

文章预览

24年8月来自北京智源研究院、清华深圳国际研究生院和北大的论文“Egocentric Vision Language Planning”。 探索利用 大型多模态模型 (LMM) 和文本-到-图像模型来构建更通用的具身智体。LMM 擅长通过符号抽象来规划长期任务,但在物理世界中却难以扎根,通常无法准确识别图像中的物体位置。需要一座桥梁将 LMM 连接到物理世界。本文提出自我中心的视觉语言规划 (EgoPlan),从自我中心的角度处理不同家庭场景中的长期任务。该模型利用扩散模型来模拟状态和动作之间的基本动态,整合风格迁移和光流等技术来增强不同环境动态的泛化。LMM 充当规划器,将指令分解为子目标,并根据它们与这些子目标的一致性选择动作,从而实现更普遍和有效的决策。实验表明,与家庭场景中的基线相比,从自我中心的角度来看,EgoPlan 提高长期任务的成功率。 大语言模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览