内容AI: 目标驱动的图像生成

大淘宝技术 · 公众号 · · 2024-12-16 18:47

主要观点总结

本文介绍了现有的文生图技术及其模型在淘系内部的应用场景和研究现状。文章指出文生图技术的缺陷，并阐述了研究现状。文章还介绍了现有的两种参考图生成技术，即测试时微调和免测试时微调，并详细描述了这两种技术的特点。此外，文章还介绍了数据收集、模型选择、实验效果、团队介绍以及拓展阅读等内容。淘天内容AI团队负责运用最新的生成式AI能力挖掘淘宝核心场景的痛点问题，改善用户购物体验，降低平台和商家经营门槛。

关键观点总结

关键观点1: 现有的文生图技术已经可以生成足够“以假乱真”的图像，但在文本作为控制条件的指导性方面存在缺陷。

文章提到，对于任意一件商品，如果能够生成该商品在不同场景下的高质量图像，对于to B和to C侧的内容生产和投放具有非常大的应用前景。

关键观点2: 参考图生成技术分为测试时微调和免测试时微调两种方式，各有特点。

测试时微调是指模型训练完成后，针对给定的需要进行“个性化”的物体进行额外的模型微调。免测试时微调则具备zero-shot的生成能力，具有较大的应用前景。

关键观点3: 数据收集和模型选择是文生图技术中的关键步骤。

目前主要的数据集有两类：重建数据集和配对数据集。在模型选择上，团队尝试了SDXL和Flux作为基模，最终基于虚拟试衣的范式进行相应修改调整来进行参考图生成。

关键观点4: 实验结果表明，该方案在一致性上取得了较好的效果，但仍存在一些不足。

目前仍存在对物体的品类、图像的质量、美感等方面的进步空间，以及对人物生成和交互方面的挑战。

关键观点5: 淘天内容AI团队致力于运用最新的生成式AI能力挖掘淘宝核心场景的痛点问题。

团队在过去的几年里持续以技术驱动产品和商业创新，在前沿技术领域有着广泛布局和深度探索。

文章预览

现有的文生图技术已经较为成熟， Flux 、 SD 3.5 和 Midjounery 等最先进文生图模型已经可以生成足够“以假乱真”的图像。在淘系内部，现有文生图模型已经被应用于各种需要创意图像的业务,例如 AI 会场等。但是，文生图技术的缺陷在于文本作为控制条件的指导性仍然较弱 --例如我们无法仅利用文本生成一个带有“GitHub”样式的包包的营销图（见图1）。图1. 现有文生图模型与本文方案效果展示然而，这一能力在淘系有着极为广泛和重要的应用场景和需求--想象对于任意一件商品，如果可以生成该商品在不同场景下的高质量图像，那么这对于to B 和 to C 侧的内容生产和投放，都具有非常大的应用前景，值得我们投入资源进行探索落地。研究现状基于参考图像生成目前主要有两种范式，一种是利用 inpainting 技术实现特定商品的重绘，一种是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博