加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

自动驾驶之心 · 公众号 · · 2024-11-19 07:30

文章预览

点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『具身智能』技术交流群原标题：End-to-End Navigation with Vision-Language Models: Transforming Spatial Reasoning into Question-Answering 论文链接：https://jirl-upenn.github.io/VLMnav/static/VLMnav.pdf 项目链接：https://jirl-upenn.github.io/VLMnav/ 作者单位：UC Berkeley 宾夕法尼亚大学出发点的概览 VLMnav是一种将视觉语言模型（VLM）转化为端到端导航策略的具身框架。与以往研究不同， VLMnav 不依赖感知、规划和控制的分离，而是通过VLM一步直接选择动作。令人惊讶的是，我们发现VLM可以作为端到端策略进行零样本导航，即无需任何微调或导航数据的训练。这使得方法具有开放性和广泛的下游导航任务的泛化能力。我们进行了广泛的研究，以评估该方法相较于基线 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

销售与市场 · 不挣钱的外卖，京东为什么还要做？

昨天

青澄财经 · 2025年，胖东来依旧活在热搜里

2 天前

中国舞台美术学会 · 资讯丨首旅集团与北京演艺集团举行战略合作签约仪式

3 天前

文明宁夏 · 赏年画过大年 | 新年向幸福启航

3 天前

文明宁夏 · 赏年画过大年 | 新年向幸福启航

3 天前

起点财经 · 90后教授，刚刚融资第五轮

4 月前

医学硕博园 · 江苏大学2025年推免生（含直博生）拟录取名单公示

3 月前

中学地理研究 · 男演员被骗至泰缅边境失联最新后续，整个过程太恐怖了……

1 月前