文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Image Generation|Scene Graph|Image-to-Text and Text-to-Image Synergistic Dual Spatial-aware Generation of Image-to-Text and Text-to-Image 2024-10-20|Tianjin U, NUS, ByteDance, CSU, A*STAR, HIT(SZ)|NeurIPS 2024|⭐️ 🟡 http://arxiv.org/abs/2410.15312v1 概述 在视觉空间理解(VSU)领域,空间图像到文本(SI2T)和空间文本到图像(ST2I)是两项基本任务。现有的独立方法在空间理解方面表现不佳,主要由于三维空间特征建模的复杂性。 本文提出了一种新的双重学习框架,将SI2T和ST2I任务结合在一起,通过共享的3D场景图(3DSG)表示来增强这两项任务的性能 。该框架利用空间双重离散扩散(SD3)方法,借助中间特征来指导复杂的3D过程,从而实现互利共赢。通过在视觉空间理解数据集(VSD)上的实验,结果显示该系统在ST2I和S
………………………………