讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

通过可控长视频生成实现端到端自动驾驶的泛化

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-08 00:03
    

文章预览

24年6月来自西湖大学领头的几所大学和理想汽车公司的论文“Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation”。 使用生成模型来合成新数据已成为自动驾驶中解决数据稀缺问题的事实标准。虽然现有方法能够增强感知模型,但这些方法无法提高端到端自动驾驶模型的规划性能,因为生成的视频通常少于 8 帧,并且空间和时间不一致性不可忽略。为此,Delphi,一种基于扩散的长视频生成方法,具有跨多视图的共享噪声建模机制以增加空间一致性,以及特征对齐模块以实现精确可控性和时间一致性。该方法可以生成多达 40 帧的视频而不会失去一致性,这比最先进的方法长约 5 倍。不是随机生成新数据,而是进一步设计一种采样策略,让 Delphi 生成与这些故障案例相似的新数据,以提高采样效率。这是在预训练的视觉-语言模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览