文章预览
点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号 戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群 微信扫描以下二维码, 『自动驾驶之心知识星球』 , 国内最专业的技术和求职交流社区, 和3500人一起卷赢 原标题:End-to-End Navigation with Vision-Language Models: Transforming Spatial Reasoning into Question-Answering 论文链接:https://jirl-upenn.github.io/VLMnav/static/VLMnav.pdf 项目链接:https://jirl-upenn.github.io/VLMnav/ 作者单位:UC Berkeley 宾夕法尼亚大学 出发点 的概览 VLMnav是一种将视觉语言模型(VLM)转化为端到端导航策略的具身框架。与以往研究不同, VLMnav 不依赖感知、规划和控制的分离,而是通过VLM一步直接选择动作。令人惊讶的是,我们发现VLM可以作为端到端策略进行零样本导航,即无需任何微调或导航数据的训练。这使得方法具有开放性和
………………………………