文章预览
最先进的机器学习模型极为强大,最终正在突破进入计算机视觉和自然语言处理的商业产品领域。这些成功模型的共同特点是,它们都需要大量的数据集进行训练。 沿着这一趋势,大规模基于学习的方法为机器人研究提供了一条有前景的发展路径。这种思路自然引出了两个问题:我们能从哪里收集合适的数据?如何利用这些数据创造有效的机器人系统? 幸运的是,已经存在大量数据,展示了机器人需要理解的现实环境和交互的复杂性,这些数据以视频的形式存在。然而,这些视频数据不能直接应用传统的机器人学习技术。视频可能缺乏明确的动作或目标标签,通常展示的是次优的轨迹,并且在视觉上和动态上存在显著的体现差距。这些挑战突显了需要新的机器人学习方法,以克服这些障碍。 在本研究中,我们展示了通过“野外视频”实现大规模
………………………………