文章预览
GroundingBooth是一个用于文本到图像的接地定制框架。首先提取文本描述和图像的特征,然后通过一种特殊的注意力机制来控制这些特征的结合。这个机制就像是一个精密的筛子,确保每个对象和背景之间的信息不会混淆。 比如,如果你想要在一个特定的地方放一个玩具和一棵树,系统会确保玩具和树都被放在你指定的位置,而不会因为背景的干扰而位置错乱。这样,用户就可以得到既符合要求又美观的定制图像。 GroundingBooth 支持:(a) 接地的单主题定制,以及 (b) 多主题和文本实体联合接地定制,实现主题驱动的前景和文本驱动的背景生成的联合接地,并具有身份保留和文本-图像对齐功能。 相关链接 论文链接:http://arxiv.org/abs/2409.08520v1 项目主页:https://groundingbooth.github.io 代码链接:https://github.com/YOUR%20REPO%20HERE 论文阅读 GroundingBooth:将文本转换为
………………………………