文章预览
24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。 互联网上有大量文本和视频数据,通过下一个token或帧预测支持大规模自监督学习。然而,它们并没有得到同等的利用:语言模型对现实世界产生了重大影响,而视频生成仍然主要局限于媒体娱乐。不过,视频数据捕捉了难以用语言表达的物理世界重要信息。为了解决这一差距,讨论一个机会,即扩展视频生成工作以解决现实世界中的任务。与语言类似,视频可以作为一个统一的界面,吸收互联网知识并代表不同的任务。此外,视频生成像语言模型一样,通过上下文学习、规划和强化学习等技术,充当规划器、智体、计算引擎和环境模拟器。在机器人、自动驾驶和科学等领域确定了重大影响机会,最近的研究证明视频生成的这种能力是可以实现的。最后,确定视
………………………………