文章预览
作者 | 52CV 编辑 | 我爱计算机视觉 点击下方 卡片 ,关注“ 3D视觉之心 ”公众号 第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 本篇分享论文 HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation ,介绍首个统一3D场景理解与生成的自动驾驶世界模型。 论文:https://arxiv.org/abs/2501.14729 仓库:https://github.com/LMD0311/HERMES 主页:https://lmd0311.github.io/HERMES/ 背景 在自动驾驶领域,世界模型(Driving World Models, DWMs)旨在预测未来场景演变、提升系统感知与决策能力,并成为近期业界的热点。然而,当前的DWM主要专注于场景生成任务,尽管能够预测环境未来的变化,却在场景理解能力上表现不足,难以全面解释驾驶环境。这种割裂使得模型在动态驾驶场景中的信息处理与预测能力大打折扣。 与此同时,视觉语言模型(Vis
………………………………