专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

RSS 2024 | NaVid:视觉语言导航大模型

将门创投  · 公众号  · 科技创业  · 2024-06-27 08:22

文章预览

NaVid 是首个专为视觉语言导航(VLN)任务设计的基于视频的视觉语言大模型 。此模型模仿人类导航策略,仅将视频信息作为输入,无需地图、里程计或深 度数据的支持。为训练 NaVid,团队在仿真环境中收集了510k 个 VLN 样本。在仿真环境和现实世界的测试中,NaVid 展示出了前所未有的性能,并且在未知场景中的实验验证了其卓越的泛化能力。 北京时间6月20日(周四)20:00,张嘉曌的Talk “NaVid - 视觉语言导航大模型” 已经在TechBeat人工智能社区上线!可以前往 https://www.techbeat.net/talk-info?id=881 观看。 论文标题: NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation  论文链接: https://arxiv.org/pdf/2402.15852 项目主页: https://pku-epic.github.io/NaVid/ 视频1. NaVid 在 VLN-CE 模拟器(RxR 和 R2R)上的结果 一、背景 视觉语言导航任务[1],是机器人可以根据人类的文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览