无需训练提升扩散模型区域控制能力的提示方法

ADFeed · 公众号 · · 2024-11-22 11:15

文章预览

Training-free Regional Prompting for Diffusion Transformers 代码： https://github.com/instantX-research/Regional-Prompting-FLUX 论文： https://arxiv.org/abs/2411.02395v1 来自小红书、北大和理想汽车等高校机构的研究团队提出了一种创新的区域提示方法，用于改进扩散变换器（Diffusion Transformers，简称DiT）架构下的文本到图像生成模型，特别是针对FLUX.1模型。该方法通过注意力操作实现细粒度的组合文本到图像生成，而无需额外的训练，使得模型能够更精确地处理包含多个对象和复杂空间关系的长文本提示。研究的核心在于构建一个区域感知的注意力掩码，通过调制注意力图来确保文本提示中指定的物体布局能够准确地生成在相应的图像区域内。该技术的特点在于其训练自由性，即不需要对模型进行重新训练或提供额外的数据，就能显著提升模型对复杂提示的语义理解和空间控制 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博