文章预览
导读 视觉与语言导航(VLN)是具身AI领域的关键任务,要求智能体在遵循自然语言指令的同时,在多样且未见过环境中进行导航。传统方法在决策过程中高度依赖历史观察作为时空上下文,导致显著的存储和计算开销。 在本文中,作者提出了MapNav,这是一种新颖的端到端VLN模型,它利用标注语义地图(ASM)来替代历史帧。具体来说,MapNav在每个场景开始时构建一个自上而下的语义地图,并在每个时间步更新它,从而实现精确的目标映射和结构化导航信息。然后,作者通过为关键区域添加显式的文本标签来增强这个地图,将抽象语义转化为清晰的导航线索,并生成作者的ASM。MapNav智能体使用构建的ASM作为输入,并利用VLM强大的端到端能力来赋能VLN。 广泛的实验表明,MapNav在模拟和真实世界环境中均实现了最先进的(SOTA)性能,验证了MapNav的有效性
………………………………