专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

加州大学 | 基于视觉语言模型的端到端导航:零样本,无需数据训练!

自动驾驶之心  · 公众号  ·  · 2024-11-19 07:30

文章预览

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我->  领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 具身智能 』 技术交流群 原标题:End-to-End Navigation with Vision-Language Models: Transforming Spatial Reasoning into Question-Answering 论文链接:https://jirl-upenn.github.io/VLMnav/static/VLMnav.pdf 项目链接:https://jirl-upenn.github.io/VLMnav/ 作者单位:UC Berkeley 宾夕法尼亚大学 出发点 的概览 VLMnav是一种将视觉语言模型(VLM)转化为端到端导航策略的具身框架。与以往研究不同, VLMnav 不依赖感知、规划和控制的分离,而是通过VLM一步直接选择动作。令人惊讶的是,我们发现VLM可以作为端到端策略进行零样本导航,即无需任何微调或导航数据的训练。这使得方法具有开放性和广泛的下游导航任务的泛化能力。我们进行了广泛的研究,以评估该方法相较于基线 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览