专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

181-A1｜CLIP联合能量模型，文生图概念擦除；基于LoRA的图像恢复；DiT后训练向量量化、逐块生成的扩散高效部署｜Mon

AIGC Research · 公众号 · · 2024-09-02 16:00

主要观点总结

本篇文章介绍了五个关于图像生成的技术研究，包括CLIP-JEM、STEREO、SUPIR、VQ4DiT和RISSOLE。这些研究旨在改进图像生成模型的性能、效率和鲁棒性。文章概括了每个研究的主要内容和目标，以及相应的方法、实验和通俗易懂解释。

关键观点总结

关键观点1: CLIP-JEM

研究了联合能量模型（JEMs）在图像生成领域的应用，通过结合生成和判别目标，生成文本指定的图像。采用基于余弦相似性的图像-文本联合能量函数，实现了模型生成符合文本描述的高质量图像的目标。

关键观点2: STEREO

介绍了一种双阶段方法，旨在实现对大规模文本到图像生成（T2IG）模型的安全概念擦除。该方法分为“充分搜索阶段”和“鲁棒擦除阶段”，通过寻找对抗性提示并优化模型，实现了在生成图像时避免重现某些概念的目标。

关键观点3: SUPIR

提出了一种基于低秩适应（LoRA）模块和稳定扩散（SDXL）框架的图像恢复模型SUPIR。该模型结合了LoRA与SDXL技术，提高了图像恢复的质量和效率。

关键观点4: VQ4DiT

提出了一种后训练向量量化方法VQ4DiT，旨在降低扩散变换器模型的参数复杂性。通过向量量化技术将模型权重分解为代码本和分配，实现高效的权重量化，同时保持良好的图像生成质量。

关键观点5: RISSOLE

介绍了一种块级生成与检索引导的方法RISSOLE，旨在设计参数高效的扩散模型。采用块级去噪扩散模型和检索增强生成技术，确保生成的图像块之间的空间和语义一致性。

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Image Generation｜Energy-Based CLIP, Concept Erasing Text-to-Image Generation Via Energy-Based CLIP 2024-08-30｜Haifa Technion｜⭐️ 🟡 http://arxiv.org/abs/2408.17046v1 概述在目前的多模态视觉-语言领域，联合能量模型（JEMs）引起了广泛关注，但在高分辨率真实数据集上的应用仍存在挑战。我们提出了一种新的方法，称为CLIP-JEM，它将JEMs扩展到多模态视觉-语言领域。该方法结合了生成和判别目标，以便生成文本指定的图像。为了实现这一目标， CLIP-JEM定义了基于余弦相似性的图像-文本联合能量函数，训练CLIP为真实的图像-文本对分配低能量，而为其他组合分配高能量。同时，CLIP-JEM还引入了对比对抗损失（contrastive adversarial loss），从而提高模型在对抗样本上的鲁棒性。实验结果表明，CLIP-JEM不仅在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博