文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 我们能否让机器人学习如何收集自己的数据以实现持续改进? 数据驱动学习是使机器人学习技能的强大范式 。当前的主要方法涉及通过遥操作或仿真收集大量机器行为数据,然后训练策略。为了使这些策略能够在多样化的任务和场景中推广,构建丰富的初始数据集的负担很大,这受到收集示范所需的人力劳动或仔细设计仿真资产和场景的瓶颈限制。我们能否让机器人学习如何收集自己的数据以实现持续改进?本论文旨在解决这一探索问题,指导智能体如何行动,从而发现有用的行为。 我们首先考虑如何在缺乏奖励或示范的情况下定义探索目标 。为了探索新目标,我们的关键见解是,识别导致某个未知目标状态的动作序列比直接生成未知目标更容易。这得益于训练一个可以用来测量动作序列不确定性的
………………………………