专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

哈工大/理想/清华/西湖大学/新加坡国立大学强势开源DiVE，基于DiT的视频生成与增强控制,多视角视频合成的突破 !

智驾实验室 · 公众号 · · 2024-10-17 08:00

文章预览

ADAS Laboratory 点击上方蓝字关注智驾实验室加入【智驾实验室】交流群，获取更多内容和资料生成高保真、时间一致的视频在自动驾驶场景中面临显著挑战，例如在特殊情况的糟糕操作。尽管最近提出了一些视频生成工作来解决这个问题，例如基于Diffusion Transformers（DiT）的模型，但针对多视角视频生成场景的研究仍有所欠缺。值得注意的是，作者提出了第一个专门设计为生成时间、多视角一致视频的DiT为基础的框架，该框架的精确匹配给定的鸟瞰视图布局控制。具体来说，所提出的框架利用了一个参数自由的时空扩展关注机制来保证跨视角的一致性，其中包含联合跨注意力模块和ControlNet-Transformer，以进一步提高控制的精准度。为了证明作者的优势，作者在nuScenes数据集上进行了广泛的定性比较，尤其是在一些最具有挑战性的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博