专栏名称: 自动驾驶Daily

专注自动驾驶与AI

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

理想汽车最新！DiVE：基于 Diffusion+Vit的高保真、时间一致的视频生成

自动驾驶Daily · 公众号 · 科技自媒体 · 2024-09-06 07:50

主要观点总结

本文介绍了基于DiT的视频生成与增强控制的研究，提出了一种可控的多视角视频生成模型。该模型通过整合ControlNet-Transformer和joint cross-attention实现对BEV布局的精确控制，采用spatial view-inflated attention结合全面的训练和推理策略，确保了高质量和一致性的视频生成。文章还介绍了模型的设计思路、实现方法和实验结果，并通过与MagicDrive的比较和各种可视化展示了该模型的优秀性能。

关键观点总结

关键观点1: 基于DiT的视频生成模型

模型采用Diffusion Transformer（DiT）进行视频生成，能够生成高保真、时间一致性的视频。

关键观点2: 多视角一致性保证

通过采用spatial view-inflated attention和无参数的view-inflated attention mechanism，模型保证了跨视角一致性。

关键观点3: 精确的控制能力

通过整合场景文本和实例布局，模型实现了对BEV布局的精确控制，并采用了ControlNet-Transformer确保对道路草图控制的精确性。

关键观点4: 全面的训练和推理策略

模型采用了多种训练策略，如Bucket策略、Rectified Flow、前k帧掩码等，以实现高质量和一致性的视频生成。

关键观点5: 与MagicDrive的比较和可视化展示

文章通过实验结果和可视化比较，展示了该模型在生成视频中的卓越控制和一致性。

文章预览

点击下方卡片，关注“ 自动驾驶Daily ”公众号戳我-> 领取近15个自动驾驶方向路线今天自动驾驶Daily今天为大家分享一篇哈工大、理想汽车与清华大学等团队出品的工作：基于DiT的视频生成与增强控制。如果您有相关工作需要分享，请在文末联系我们！自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询 >> 点击进入→ 自动驾驶Daily技术交流群本文只做学术分享，如有侵权，联系删文原标题：DiVE: DiT-based Video Generation with Enhanced Control 论文链接：https://arxiv.org/pdf/2409.01595 项目链接：https://liautoad.github.io/DIVE/ 代码链接：https://github.com/LiAutoAD/DIVE 作者单位：哈尔滨工业大学（深圳）理想汽车清华大学 Westlake University 新加坡国立大学论文思路：在自动驾驶场景中生成高保真、时间一致性的视频面临着显著的挑战，例如 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

郑州晚报 · 全国第15位！中原科技城最新排名，两年提升16位次实现“撑杆跳”

2 天前

财圈社 · 从ICU走出来的领跑者靠的不是运气

2 天前

财圈社 · 从ICU走出来的领跑者靠的不是运气

2 天前

字句都是你 · iPhone 17终于靠谱了！手里的iPhone手机不香了

2 天前

字句都是你 · iPhone 17终于靠谱了！手里的iPhone手机不香了

2 天前

南京日报 · 湖南路，正在“苏醒”！

2 天前

企业专利观察 · 比亚迪降低充电成本的专利，被宣告部分无效

3 天前

企业专利观察 · 比亚迪降低充电成本的专利，被宣告部分无效

3 天前

暴叔讲留学 · 澳洲大学“高攀不起”了？

5 月前

欧洲并购与投资 · 赛诺菲在法兰克福投资13亿欧元

5 月前

清海地产研究 · 【周度专题】地产行业有何底部特征？——2024W33房地产周报丨方正地产建筑刘清海团队

5 月前

许纪霖之窗 · 许纪霖×毛尖×维舟对谈丨“此心安处是吾乡”——在乡土中理解中国

3 月前

邃瞳科学云 · 北航张俊英/昆工杨正文AEM: 双功能WO₃:Yb,Er向Zn₀.₅Cd₀.₅S的电子、光子协同转移实现高效光催化析氢

2 月前