专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

PerlDiff:使用扩散模型进行可控的自动驾驶场景数据生成(NuScenes和KITTI显著提升)

arXiv每日学术速递  · 公众号  ·  · 2024-07-15 12:08

文章预览

今天自动驾驶Daily今天为大家分享一篇使用透视布局扩散模型进行可控的街景合成工作PerlDiff。如果您有相关工作需要分享,请在文末联系我们! 文章链接:https://arxiv.org/pdf/2407.06109 项目链接: https://perldiff.github.io/ 主要贡献: 提出了新框架 PerlDiff,用于根据用户定义的3D注释生成街景图像。PerlDiff 利用透视布局掩码作为几何先验,精确引导物体层面的图像生成过程。 提出了基于 Perl 的交叉注意机制,该机制利用3D注释中的透视布局掩码图来增强 Perl-CM 中的交叉注意机制。这种方法通过整合道路和 BEV 注释的特定物体信息,实现了对街景图像生成过程的精确控制。 PerlDiff在NuScenes 和 KITTI 数据集上达到了SOTA,显著提高了将生成街景图像用于目标检测和分割上的实验结果。 可控生成被认为是解决 3D 数据标注挑战的一种的重要方法,而这种可控生成的精 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览