文章预览
写在前面 这项工作旨在解决从给定的鸟瞰图(BEV)语义信息的文本提示中生成多视角RGB图像的问题。与以往忽视布局一致性、缺乏处理详细文本提示的能力或无法泛化到未见视角的方法不同,MVPbev通过两阶段设计同时生成不同视角的跨视角一致图像,从而在测试时实现目标级控制和新颖视角的生成。具体来说,MVPbev首先利用相机参数将给定的BEV语义信息投影到透视图中,使模型能够泛化到未见视角。然后,引入了一个多视角注意力模块,其中采用了特殊的初始化和去噪过程,以明确强制跨视角单应性变换下重叠视图之间的局部一致性。最后但同样重要的是,MVPbev通过优化预训练的文本到图像的扩散模型,进一步实现了测试时的实例级可控性。在NuScenes数据集上进行了广泛的实验,结果表明,提出的方法能够从数千个训练样本的文本描述中生成高分
………………………………