文章预览
人类能够通过规划、推理和预测行为的结果来完成具有长期目标的复杂任务。为了使具身智能体(如机器人)实现类似的能力,它们必须获得环境知识,能够在有限的试错预算下迁移到新场景中。基于学习的方法,如深度强化学习,能够从数据中发现并利用应用领域的内在规律和特征,并不断提高其性能,但代价是需要大量的训练数据。本论文探讨了空间推理与规划任务的数据驱动技术的发展,重点在于提高学习效率、可解释性和跨新场景的可迁移性。论文有四项主要贡献。 首先,CALVIN 是一个差分规划器,它学习可解释的世界模型用于长期规划。通过从专家示范中学习奖励(目标和障碍)和状态转换(机器人动力学),CALVIN 成功地在部分可观测的3D环境中导航,例如迷宫和室内房间。 其次,SOAP 是一种强化学习算法,用于无监督地发现用于长时
………………………………