文章预览
转自: 计算机视觉工坊 0. 论文信息 标题:NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation 作者:Youzhi Liu, Fanglong Yao, Yuanchang Yue, Guangluan Xu, Xian Sun, Kun Fu 机构:Chinese Academy of Sciences 原文链接:https://arxiv.org/abs/2411.08579 代码链接:soon 1. 导读 视觉-语言导航(VLN)是具身智能中一个被广泛讨论的研究方向,旨在使具身智能体通过自然语言命令在复杂的视觉环境中导航。大多数现有的VLN方法集中在室内地面机器人场景。然而,当应用于户外城市场景中的无人机VLN时,它面临两个重大挑战。首先,城市场景包含大量对象,这使得将图像中的细粒度地标与这些地标的复杂文本描述进行匹配具有挑战性。第二,整体环境信息包含多个模态维度,表达的多样性大大增加了编码过程的复杂性。为了应对这些挑战,我们提出了NavAgent,这是第一
………………………………