专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

RSS 2024 | NaVid：视觉语言导航大模型

将门创投 · 公众号 · 科技创业 · 2024-06-27 08:22

文章预览

NaVid 是首个专为视觉语言导航（VLN）任务设计的基于视频的视觉语言大模型。此模型模仿人类导航策略，仅将视频信息作为输入，无需地图、里程计或深度数据的支持。为训练 NaVid，团队在仿真环境中收集了510k 个 VLN 样本。在仿真环境和现实世界的测试中，NaVid 展示出了前所未有的性能，并且在未知场景中的实验验证了其卓越的泛化能力。北京时间6月20日(周四)20:00，张嘉曌的Talk “NaVid - 视觉语言导航大模型” 已经在TechBeat人工智能社区上线！可以前往 https://www.techbeat.net/talk-info?id=881 观看。论文标题： NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation 论文链接： https://arxiv.org/pdf/2402.15852 项目主页： https://pku-epic.github.io/NaVid/ 视频1. NaVid 在 VLN-CE 模拟器（RxR 和 R2R）上的结果一、背景视觉语言导航任务[1]，是机器人可以根据人类的文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

创策汇SH · 【上海市】关于上海市2024年度“科技创新行动计划”生物医药创新发展等拟立项项目的公示

8 小时前

AI科技评论 · 视觉模型智能涌现后， Scaling Law 不会到头

18 小时前

AI科技评论 · 视觉模型智能涌现后， Scaling Law 不会到头

18 小时前

少数派 · 「低配」不低能：2024 款 MacBook Pro 快速体验

昨天

少数派 · 「低配」不低能：2024 款 MacBook Pro 快速体验

昨天

火星投资 · 深圳计划鼓励并购重组，已经起草征求意见稿

5 天前

上海科创汇 · 申报|青浦区2024年创新型中小企业评价（第四批）

6 天前

欧洲并购与投资 · 需求疲软，奥迪布鲁塞尔工厂关闭的事宜迫在眉睫

3 月前

河南自然资源 · 四川省厅宣传教育中心调研组到省自然资源厅调研

3 周前