文章预览
AIGC Research < PaperDaily> 主编 | 庄才林(Cailin Zhuang) 技术 支持 |胡耀淇(Yaoqi Hu) 发布 日期 |2024年10月23日|周三 Topic: Image Generation|Compositionality, Topology-aware Progressive Compositionality In Text-to-Image Generative Models 2024-10-22|Yale, USC, MIT|⭐️ 🟡 http://arxiv.org/abs/2410.16719v1 https://github.com/evansh666/EvoGen 概述 本研究探讨了 文本到图像生成模型在理解对象和属性之间的组合关系方面 的挑战,尤其是在复杂场景中。尽管现有的扩散模型在图像合成方面表现出色,但它们在 生成包含多种对象及其属性的连贯场景 时仍存在问题, 如属性绑定错误和对象关系不当 。为了解决这些问题,研究者们提出了一种新的方法, 结合了大型语言模型(LLMs)和视觉问答(VQA)系统,构建了一个名为CONPAIR的对比数据集,其中包含15,000对高质量的对比图像 。这些图像在视觉表现
………………………………