港科大/北大等联合提出MapNav | 革新VLN记忆，语义地图替代历史帧，存储开销锐减90%

arXiv每日学术速递 · 公众号 · · 2025-03-05 12:38

文章预览

导读视觉与语言导航（VLN）是具身AI领域的关键任务，要求智能体在遵循自然语言指令的同时，在多样且未见过环境中进行导航。传统方法在决策过程中高度依赖历史观察作为时空上下文，导致显著的存储和计算开销。在本文中，作者提出了MapNav，这是一种新颖的端到端VLN模型，它利用标注语义地图（ASM）来替代历史帧。具体来说，MapNav在每个场景开始时构建一个自上而下的语义地图，并在每个时间步更新它，从而实现精确的目标映射和结构化导航信息。然后，作者通过为关键区域添加显式的文本标签来增强这个地图，将抽象语义转化为清晰的导航线索，并生成作者的ASM。MapNav智能体使用构建的ASM作为输入，并利用VLM强大的端到端能力来赋能VLN。广泛的实验表明，MapNav在模拟和真实世界环境中均实现了最先进的（SOTA）性能，验证了MapNav的有效性 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博