讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
黄昏即景  ·  12.20 ·  2 天前  
黄昏即景  ·  12.20 ·  2 天前  
格隆汇投资学苑  ·  龙虎榜 | ... ·  4 天前  
格隆汇投资学苑  ·  龙虎榜 | ... ·  4 天前  
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

T2I-Adapter: 在文本-到-图像扩散模型中学习适配器挖掘更多可控制能力

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-08 00:15
    

文章预览

23年2月论文"T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models", 来自北大、腾讯、澳门大学等,实习生的工作。 大规模文本-到-图像(T2I)模型令人难以置信的生成能力,已经证明其学习复杂结构和有意义语义的强大能力。 然而,仅仅依靠文本提示并不能充分利用模型所学到的知识,尤其是在需要灵活准确的控制(例如颜色和结构)时。 本文目标是“挖掘”T2I模型隐式学习的能力,然后再显式使用来更细粒度地控制生成。 具体而言,学习一个简单而轻量级的T2I-Adapter,使T2I模型中的内部知识与外部控制信号保持一致,同时冻结原始的大T2I模型。 这样,可以根据不同的条件训练不同的适配器,在生成结果的颜色和结构上实现丰富的控制和编辑效果。 此外,所提出的T2I-Adapter具有很有吸引力的实用价值,如可移植性和泛 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览