文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 在本论文中,我们研究了如何从原始未标注的视频数据构建可扩展的通用感知系统的问题。 人类具有从原始感官输入(如视频和音频)中学习强大感知能力的非凡能力,并且几乎不需要监督。尽管在建模高层次认知功能(如语言理解与生成)方面取得了巨大的近期进展,但我们目前最先进的计算机视觉模型在学习感知和表征物理世界的效率和性能方面,远远落后于人类水平。它们通常需要大量的训练数据,并且这些数据需要昂贵的手工标注,任务特定的架构,以及即便在模型参数和训练数据规模增大的情况下,性能提升也非常有限。在本论文中,我们研究了如何从原始未标注的视频数据构建可扩展的通用感知系统的问题。核心思想是训练一个大规模的世界模型,基于视觉数据。预训练的世界模型根据当
………………………………