专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
今天看啥  ›  专栏  ›  智驾实验室

百度开源 BEVWorld | 利用鸟瞰图潜在空间构建多模态世界模型,实现驾驶环境全面理解 !

智驾实验室  · 公众号  ·  · 2024-07-15 08:00
    

文章预览

ADAS  Laboratory 点击上方 蓝字 关注  智驾实验室           加入【 智驾实验室 】交流群, 获取更多内容和资料 世界模型因其在预测潜在未来情景方面的能力而在自动驾驶领域受到越来越多的关注。在本文中,作者提出了_BEVWorld_,一种新颖的方法,将多模态传感器输入标记化为统一且紧凑的鸟瞰图(BEV)潜在空间进行环境建模。 世界模型由两部分组成:多模态标记器与潜在BEV序列扩散模型。多模态标记器首先编码多模态信息,解码器能够通过自监督的射线投射渲染将潜在BEV标记重建为激光雷达和图像观测。 然后,潜在BEV序列扩散模型在给定动作标记的条件下预测未来情景。实验证明了_BEVWorld_在自动驾驶任务中的有效性,展示了其在生成未来场景方面的能力,并有利于下游任务,如感知和运动预测。 代码将可在https://github.com/zympsyche/BevWorld获取。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览