文章预览
点击下方 卡片 ,关注“ AIGC Studio ” 文章:https://arxiv.org/abs/2402.18078 项目:https://github.com/YanzuoLu/CFLD 01 导言 扩散模型是一种很有前途的图像生成方法,已被应用于姿态引导的人物图像合成(PGPIS)中,具有较好的性能。 虽然现有的方法只是简单地将人的外表与目标姿势对齐,但由于缺乏对源人物图像的高级语义理解,它们容易过度拟合。 本文提出了一种新的用于PGPIS的粗-细潜扩散(CFLD)方法。 (1)在缺乏图像标题对和文本提示的情况下,克服了将文本到图像扩散应用于PGPIS时的局限性,开发了一种全新的纯粹基于图像的训练范式,以控制预训练的文本到图像扩散模型的生成过程。 (2)提出一种感知细化解码器,旨在逐步细化一组可学习的查询,以粗粒度提示提取人图像的语义理解。这允许在不同阶段分离细粒度的外观和姿态信息控制,从而避免潜
………………………………