【斯坦福博士论文】生成模型的视觉与行为

专知 · 公众号 · · 2024-07-12 14:00

文章预览

动物和人类在构建世界的内部表征并利用它们来模拟、评估和选择不同可能的行动方面表现出非凡的能力。这种能力主要通过观察且没有任何监督地学习。赋予自主代理类似的能力是机器学习中的一个基本挑战。在本论文中，我将探索新的算法，这些算法能够通过预测从视频中进行可扩展的表征学习、视觉数据的生成模型及其在机器人领域的应用。首先，我将讨论使用预测学习目标来学习视觉表征所面临的挑战。我将介绍一个简单的预测学习架构和目标，它能够学习视觉表征，以零样本的方式解决各种视觉对应任务。随后，我将提出一种基于变压器的通过扩散建模进行照片级视频生成的方法。我们的方法在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。最后，我将说明生成模型在机器人学习中的实际应用。我们非自回归的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博