专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

所有指标优于现有SOTA!MVPBEV:具有可控和泛化性的BEV多视图图像生成

arXiv每日学术速递  · 公众号  ·  · 2024-08-05 11:29

文章预览

写在前面 这项工作旨在解决从给定的鸟瞰图(BEV)语义信息的文本提示中生成多视角RGB图像的问题。与以往忽视布局一致性、缺乏处理详细文本提示的能力或无法泛化到未见视角的方法不同,MVPbev通过两阶段设计同时生成不同视角的跨视角一致图像,从而在测试时实现目标级控制和新颖视角的生成。具体来说,MVPbev首先利用相机参数将给定的BEV语义信息投影到透视图中,使模型能够泛化到未见视角。然后,引入了一个多视角注意力模块,其中采用了特殊的初始化和去噪过程,以明确强制跨视角单应性变换下重叠视图之间的局部一致性。最后但同样重要的是,MVPbev通过优化预训练的文本到图像的扩散模型,进一步实现了测试时的实例级可控性。在NuScenes数据集上进行了广泛的实验,结果表明,提出的方法能够从数千个训练样本的文本描述中生成高分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览