专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

NeurIPS'24 | 视频生成模型是世界模型吗?iVideoGPT: 交互式视频GPT,一种可扩展的世界模型

AI TIME 论道  · 公众号  ·  · 2024-12-16 18:00
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 概述 本文提出一种兼具可交互性和可扩展性的世界模型架构 iVideoGPT,基于视频的压缩标记化和自回归 Transformer,支持在百万条人类和机器人操作轨迹上预训练,并适配到动作条件视频预测、视觉规划和基于模型的强化学习等多种控制相关任务。 作者 :吴佳龙*,尹绍沣*,冯宁亚,和煦,李栋,郝建业,龙明盛 链接 :https://arxiv.org/pdf/2405.14369 主页 :https://thuml.github.io/iVideoGPT 代码 & 预训练模型 :https://github.com/thuml/iVideoGPT 1. 引言 近年来,以Sora为代表的视频生成模型,能够生成逼真的长视频,产生了广泛的应用。这引发了人们对于构建世界模型的设想: 视频生成模型是世界模型吗? 我们的回答是 还不是 。 从 任务 的视角, 世界模型需要具备可交互性 。它使得智能体能够在虚拟世界中根据 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览