专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
今天看啥  ›  专栏  ›  智驾实验室

哈工大/理想/清华/西湖大学/新加坡国立大学强势开源DiVE,基于DiT的视频生成与增强控制,多视角视频合成的突破 !

智驾实验室  · 公众号  ·  · 2024-10-17 08:00
    

文章预览

ADAS  Laboratory 点击上方 蓝字 关注  智驾实验室           加入【 智驾实验室 】交流群, 获取更多内容和资料 生成高保真、时间一致的视频在自动驾驶场景中面临显著挑战,例如在特殊情况的糟糕操作。 尽管最近提出了一些视频生成工作来解决这个问题,例如基于Diffusion Transformers(DiT)的模型,但针对多视角视频生成场景的研究仍有所欠缺。 值得注意的是,作者提出了第一个专门设计为生成时间、多视角一致视频的DiT为基础的框架,该框架的精确匹配给定的鸟瞰视图布局控制。 具体来说,所提出的框架利用了一个参数自由的时空扩展关注机制来保证跨视角的一致性,其中包含联合跨注意力模块和ControlNet-Transformer,以进一步提高控制的精准度。 为了证明作者的优势,作者在nuScenes数据集上进行了广泛的定性比较,尤其是在一些最具有挑战性的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览