文章预览
动物和人类在构建世界的内部表征并利用它们来模拟、评估和选择不同可能的行动方面表现出非凡的能力。这种能力主要通过观察且没有任何监督地学习。赋予自主代理类似的能力是机器学习中的一个基本挑战。在本论文中,我将探索新的算法,这些算法能够通过预测从视频中进行可扩展的表征学习、视觉数据的生成模型及其在机器人领域的应用。 首先,我将讨论使用预测学习目标来学习视觉表征所面临的挑战。我将介绍一个简单的预测学习架构和目标,它能够学习视觉表征,以零样本的方式解决各种视觉对应任务。随后,我将提出一种基于变压器的通过扩散建模进行照片级视频生成的方法。我们的方法在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。最后,我将说明生成模型在机器人学习中的实际应用。我们非自回归的
………………………………