文章预览
🫱点这里加入16个细分方向交流群(🔥推荐)🫲 摘要 最近在自回归(AR)生成模型方面的成功,例如自然语言处理中的GPT系列,激发了在视觉任务中复制这一成功的努力。一些研究尝试将这种方法扩展到自动驾驶中,通过构建基于视频的世界模型来生成逼真的未来视频序列和预测自我状态。然而,先前的工作往往产生不尽人意的结果,因为经典的GPT框架旨在处理一维上下文信息(如文本),缺乏生成视频所必需的空间和时间动态的建模能力。 ©️【深蓝AI】编译 论⽂题目: DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT 论文作者:Xiaotao Hu,Wei Yin,Mingkai Jia,Junyuan Deng,Xiaoyang Guo,Qian Zhang,Xiaoxiao Long,Ping Tan 论文地址:https://arxiv.org/pdf/2412.19505 官方网站: https://github.com/YvanYin/DrivingWorld 在本文中, 本文提出了DrivingWorld,这是一个GPT
………………………………