文献 | NavAgent：无人机具身视觉语言导航的多尺度城市街景融合

GIS研发 · 公众号 · · 2025-02-06 12:26

文章预览

转自：计算机视觉工坊 0. 论文信息标题：NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation 作者：Youzhi Liu, Fanglong Yao, Yuanchang Yue, Guangluan Xu, Xian Sun, Kun Fu 机构：Chinese Academy of Sciences 原文链接：https://arxiv.org/abs/2411.08579 代码链接：soon 1. 导读视觉-语言导航(VLN)是具身智能中一个被广泛讨论的研究方向，旨在使具身智能体通过自然语言命令在复杂的视觉环境中导航。大多数现有的VLN方法集中在室内地面机器人场景。然而，当应用于户外城市场景中的无人机VLN时，它面临两个重大挑战。首先，城市场景包含大量对象，这使得将图像中的细粒度地标与这些地标的复杂文本描述进行匹配具有挑战性。第二，整体环境信息包含多个模态维度，表达的多样性大大增加了编码过程的复杂性。为了应对这些挑战，我们提出了NavAgent，这是第一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新京报评论 · 小杨哥被批准复出，别辜负这份来之不易的宽容 | 新京报专栏

19 小时前

新京报评论 · 责令停业立案查处！杨国福咋就管不住一只老鼠？| 新京报快评

2 天前

Jump x Switch · 真香！《超市模拟器》等6款Switch佳作好价快冲！

8 月前

腾讯云 · 腾讯发布Q2财报：自研、出海、AI 增长加速

7 月前

财新 · 深耕阿克苏数年新疆“70后”政法厅官马国强被开除党籍

7 月前

3060 · 中国团队改写氢能历史：零碳制氢如何降本90%？

3 周前