专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

RSS 2024 | NaVid:视觉语言导航大模型

专知  · 公众号  ·  · 2024-06-10 14:00
    

文章预览

导  读 本文是对于发表在 RSS 2024 的论文 NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation 的解读。该工作由北京大学王鹤团队与北京智源人工智能研究院、自动化研究所、阿德莱德大学、澳大利亚国立大学和北京银河通用机器人合作完成。共同第一作者包括北京大学计算机学院博士生张嘉曌,以及北京智源人工智能研究院的实习生王堃宇和许镕涛。 ↑扫码跳转论文 项目主页: https://pku-epic.github.io/NaVid/ 论文: https://arxiv.org/pdf/2402.15852 NaVid 是首个专为视觉语言导航 (VLN) 任务设计的基于视频的视觉语言大模型。 此模型模仿人类导航策略,仅将视频信息作为输入,无需地图、里程计或深度数据的支持。为训练 NaVid,我们还在仿真环境中收集了510k 个 VLN 样本。在仿真环境和现实世界的测试中,NaVid 展示出了前所未有的性能,并且在未知 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览