以自我中心的视觉语言规划

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-13 02:19

文章预览

24年8月来自北京智源研究院、清华深圳国际研究生院和北大的论文“Egocentric Vision Language Planning”。探索利用大型多模态模型 (LMM) 和文本-到-图像模型来构建更通用的具身智体。LMM 擅长通过符号抽象来规划长期任务，但在物理世界中却难以扎根，通常无法准确识别图像中的物体位置。需要一座桥梁将 LMM 连接到物理世界。本文提出自我中心的视觉语言规划 (EgoPlan)，从自我中心的角度处理不同家庭场景中的长期任务。该模型利用扩散模型来模拟状态和动作之间的基本动态，整合风格迁移和光流等技术来增强不同环境动态的泛化。LMM 充当规划器，将指令分解为子目标，并根据它们与这些子目标的一致性选择动作，从而实现更普遍和有效的决策。实验表明，与家庭场景中的基线相比，从自我中心的角度来看，EgoPlan 提高长期任务的成功率。大语言模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · #高管称吴柳芳被禁言分歧很大#【#副总裁回应吴柳芳账号被禁言#：-20241225135000

昨天

新浪科技 · #黑神话悟空入选淘宝年度十大商品#【#淘宝公布年度十大商品#：《-20241223142000

3 天前

新浪科技 · 【#企业微信上架纯血鸿蒙#】腾讯旗下“企业微信”现已上架华为鸿蒙-20241223120116

3 天前

新浪科技 · #中国移动0元领手机套路#【被指套路消费者，#中国移动信用购贷款-20241223085002

3 天前

虎嗅APP · 从年薪百万到月入三千，柜姐被中产抛弃

4 天前

魔术师卡颂 · Claude Artifacts 会成为前端标配么？

3 月前

魔术师卡颂 · Claude Artifacts 会成为前端标配么？

3 月前