文章预览
导读 在未知环境中导航对家用机器人来说是一项重大挑战,需要机器人具备识别和推理新装饰和布局的能力。现有的强化学习方法不能直接应用于新环境,因为它们通常依赖于广泛的地图构建和探索,导致耗时且效率低下。 为了解决这些挑战,作者尝试将预训练基础模型中的逻辑知识和泛化能力迁移到零样本导航。通过整合大型视觉-语言模型和扩散网络,NavigateDiff构建了一个视觉预测器,该预测器可以持续预测 Agent 在下一步可能观察到的内容,从而帮助机器人生成稳健的动作。此外,为了适应导航的时间属性,作者引入了时间历史信息,以确保预测的图像与导航场景保持一致。然后,作者精心设计了一个信息融合框架,将预测的未来帧作为指导嵌入到目标到达策略中,以解决下游图像导航任务。这种方法增强了在模拟和真实世界环境中的导
………………………………