文章预览
NaVid 是首个专为视觉语言导航(VLN)任务设计的基于视频的视觉语言大模型 。此模型模仿人类导航策略,仅将视频信息作为输入,无需地图、里程计或深 度数据的支持。为训练 NaVid,团队在仿真环境中收集了510k 个 VLN 样本。在仿真环境和现实世界的测试中,NaVid 展示出了前所未有的性能,并且在未知场景中的实验验证了其卓越的泛化能力。 北京时间6月20日(周四)20:00,张嘉曌的Talk “NaVid - 视觉语言导航大模型” 已经在TechBeat人工智能社区上线!可以前往 https://www.techbeat.net/talk-info?id=881 观看。 论文标题: NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation 论文链接: https://arxiv.org/pdf/2402.15852 项目主页: https://pku-epic.github.io/NaVid/ 视频1. NaVid 在 VLN-CE 模拟器(RxR 和 R2R)上的结果 一、背景 视觉语言导航任务[1],是机器人可以根据人类的文
………………………………