3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA｜ECCV 2024

量子位 · 公众号 · AI · 2024-08-25 12:05

主要观点总结

文章介绍了基于扩散模型的AI生图存在的风险内容问题，包括侵犯版权和包含风险内容（如虚假新闻、暴力色情内容）的图像。针对此，学界提出了“概念移除”方法，而最新研究RECE在概念移除方面取得了很好的效果。RECE主要包含模型编辑和嵌入推导两个模块，采用高效的解析解进行风险概念的移除，且对无关概念破坏极小。文章还介绍了RECE的具体实现过程，包括算法流程、实验效果及作者简介等相关内容。

关键观点总结

关键观点1: AI生图存在风险内容问题

基于扩散模型的AI生成的图像有时真假难辨，常被恶意用户用来生成侵犯版权和包含风险内容的图像，如虚假新闻、暴力色情内容等。

关键观点2: 概念移除方法被提出

为了解决这个问题，学界提出了“概念移除”方法，即通过微调来移除文生图扩散模型中特定的风险概念，使其不再具备生成相应内容的能力。

关键观点3: RECE研究取得成果

最新研究RECE在概念移除方面取得了SOTA效果，对无关概念破坏极小，论文已被顶会ECCV 2024接收。整个过程基于高效的解析解。

关键观点4: RECE的主要模块

RECE主要包含模型编辑和嵌入推导两个模块，采用解析解的形式在交叉注意力层中将风险概念映射到无害概念，并推导出风险概念的新嵌入表示用于模型编辑。

关键观点5: 实验效果

在I2P基准数据集上，RECE的裸露移除效果超过了所有已有方法。在保护艺术版权方面，RECE也优于其他方法。此外，RECE对恶意用户的有意攻击同样可以有效防护，并且模型编辑耗时远低于其他方法。

文章预览

RECE团队投稿量子位 | 公众号 QbitAI 让AI绘画模型变“乖”，现在仅需 3秒调整模型参数。效果be like：生成的风险图片比以往最佳方法减少 30% ！像这样，在充分移除梵高绘画风格的同时，对非目标艺术风格几乎没有影响。在移除裸露内容上，效果达到“只穿衣服，不改结构”。这就是复旦大学提出的概念移除新方法—— RECE 。目前，基于扩散模型的AI生图有时真假难辨，常被恶意用户用来生成侵犯版权和包含风险内容（如虚假新闻、暴力色情内容）的图像。 SD中使用的的安全措施是使用安全检查器，对违规的生成图像不予展示，还集成了一些用classifier-free guidance来规避风险概念的方法。但在开源条件下，恶意用户可以轻松绕过这些机制，网上甚至有大把的教程…… 针对此，学界提出了“概念移除”，即通过微调来移除文生图扩散模型中特定 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博